Штучний інтелект у творчості: Огляд та Подих Майбутнього
Привіт всім! Сьогодні я хочу поділитися з вами захоплюючим оглядом останніх новин з творчого світу штучного інтелекту. Світ технологій не стоїть на місці, і я. Відчуваю, як у повітрі витає передчуття чогось неймовірного. Давайте разом поринемо у цей дивовижний процес та розберемось, що нового приготували нам гіганти та відкриті розробники. До речі,
LTX: Турбо-версія для блискавичної творчості
Почнемо з захоплюючої новини від LTX. Вони випустили дистильовану модель свого нового 13B. Якщо ви слідкуєте за моїми відео, то знаєте, що ми вже обговорювали оновлену модель 13B. Але сьогодні зосередимо увагу на її турбо-версії, тобто на “турбо-двигуні”. Очевидно,
Що тут крутого тому швидкість! Зрозуміло, lTX стверджує, що якісні результати досягаються всього за чотири-вісім кроків. Мултимасштабний рендеринг завершується всього за 12 секунд. Фактично,
Але чи означає це, що старий комп’ютер видасть шедевр за цей час? Ні, звичайно. Але якщо у вас дивіться, загалом, відносно сучасний графічний процесор, ви повинні бути у виграші. Я мушу сказати, що турбо-модель LTX тримає удар досить добре, навіть. Краще, ніж Gen4 Turbo, яку я особисто не використовую через її непередбачуваність.
Чому так добре працює LTX Turbo? Ймовірно, це пов’язано з архітектурою LTX, а саме з багатомасштабним рендерингом. Спочатку створюється ескіз вашого відео, а потім поступово додаються шари для уточнення. Справа в тому, що
Якщо ви не дуже добре розбираєтесь в технічних тонкощах, але хочете спробувати LTX Turbo, ви можете використовувати платформу HuggingFace, адже вона з відкритим вихідним кодом. Просто заливаєте зображення, пишете промпт (наприклад, “машина обертається”). Встановлюєте тривалість генерації в 5 секунд, і ось результат. Швидко та якісно! Я, звісно, не отримала 12 секунд, використовуючи безкоштовний графічний процесор, але 41 секунда – теж непогано.
А якщо ви хочете швидкості, вирушайте на платформу LTX Studio. Я завантажила зображення нашої Кіберпанк Вікінг, який пішов пиячити вдень з випадковим перехожим. Результат вийшов трохи більше 12 секунд – і це виглядає дуже добре. Зрозуміло,
WAN 2. 1 та Vase: Все в одному для відео творчості
Тепер переходимо до WAN 2. 1 або WAX, як приблизно, його називали протягом коротких 48 годин, (я цього ніколи не забуду). Цікаво, вони уявіть собі, випустили WAN 2 але 1 vase. Безумовно, що ж таке Vase? Це універсальна скажімо, модель для створення та редагування відео. Вона робить все те, що ми бачили на передовій AI-відео – від знаєте, прив’язки посилання до відео, до відтворення об’єктів, розширення полотна та зміни будь-чого.
Результати вражають. У нас є контроль в принципі, над анімацією персонажів, вхідне зображення та анімований кубик, що рухається вправо. Ми також можемо контролювати, коли хлопець встане і піде. Є маскований відео-інпейнтінг. Простіше кажучи, вихідне відео, живі кадри, чи слухайте, 3D. Анімація, а замість фігурки кладемо маску, отримуємо відмінний результат.
Ще один неймовірний приклад – художник, який малює пейзаж. Хтось, дивіться, напевно, впізнав хлопця з оригінальних відео Sora. Дуже круто, що відео-драйвер – це саме це. Отже, хтось замаскував картину і замінив її. Класно, правда?
Ефект “відео у відео” виглядає дуже переконливо. Ось, наприклад, реальне кадри з дрона, оброблені через WAN Vase. Виглядає чудово! Щоб було ясно, зрозуміло,
А ось ще один приклад, який мене дуже вразив. AI-генероване зображення орла, який пірнає за здобиччю. А драйвером для цього виступає текст. Відверто кажучи, це справді цікаво, враховуючи тенденції у великих мовних моделях, як-от ChatGPT та Gemini. Можливо, це буде дуже цікавим кит-башингом: спочатку створюємо щось за допомогою LLM, а потім використовуємо це як драйвер для таких інструментів, як WAN з Vase.
Код WAN 2. 1 Vase доступний у двох версіях – 1. 3B та 14B. Я не знаю, які вимоги до моделей WAN Vase. Але звичайна модель 2 проте 1 потребує всього 8 ГБ відеопам’яті. Якщо ви не запускаєте моделі локально, не турбуйтеся, вони з’являться скрізь вже найближчим часом.
Нові горизонти: Hunnan та V3 від Google
Термінова новина! Хунан випускає нову модель зображень. Більше інформації у мене немає, але сподіваюсь, ми скоро про неї дізнаємось. Вони, здається, випускають оновлення з відкритим вихідним кодом щоп’ятниці. Відверто кажучи,
З боку Google, ми побачимо V3 наступного тижня. І це буде з “додатковими спеціями”, напередодні великої конференції Google IO. Разом з Imagen 4, з’явиться модель Imagen 4 Ultra, а також згадка про модель V3 preview.
Тут все стає ще цікавіше. Ми бачимо не тільки VO3, але й неуточнену модель. VO та VO Echo’s pose custom image to video. Звучить дуже захопливо хоча що це таке? Не знаю. Але звучить круто!
Spotter Studio: Ваш провідник у світ YouTube
Перш ніж ми. Перейдемо до генераторів сценаріїв та сторібордів, хочу трохи відступити від теми.
Як ви знаєте, більшість з нас, творців контенту, працюють над відео: фільмами, музичними кліпами, експериментальними роботами. Ми створюємо щось, що має потрапити в очі глядачів. Звичайно, чесно кажучи,
І, ймовірно, у багатьох є канал на YouTube, і ви, можливо, думаєте про те, щоб перетворити його на стабільне джерело доходу. Це цілком можливо. І в цьому може допомогти спонсор сьогоднішнього відео – Spotter Studio. Чесно кажучи,
Spotter Studio – це творча та орієнтована на дані платформа, яка допомагає професійним ютуберам та тим, хто тільки збирається ними стати. Вона має низку інструментів AI, які допоможуть вам генерувати ідеї. Пріоритезувати та пакувати ваші наступні відео за допомогою персоналізованих інсайтів.
Я особисто не дуже люблю займатися назвами та мініатюрами для YouTube. А мені доводиться робити це по два-три рази на тиждень. Отже, чудова функція Spotter Studio – саме про це. Наприклад, зараз я планую ну, розумієте, зробити відео про найкращі інструменти AI для синхронізації губ. Насправді,
З Spotter слухайте, я можу попрацювати над назвою, мініатюрою та навіть хуком для відео. Щоб наприклад, було ясно, давай почнемо з назви. У нас є чудовий стартовий пункт. Ми можемо продовжувати працювати з цим, отримати багато різних варіантів. Давайте спробуємо Power Up, де ми отримаємо ще більше гучних заголовків. Я хочу залишити варіант “AI інструменти синхронізації губ розкриті”. До речі,
Далі – ідеї для мініатюри. І ми отримали такі результати. Більше того, зверніть увагу, начебто, що ми розглядаємо багато зображень AI. Вони мають бути джерелом натхнення, а також допомагати з розташуванням тексту. Мені подобається ця мініатюра. Я використаю її.
Ще одна корисна функція! Spotter допомагає з роботою над хуками бо мені потрібні ідеї саме для мого каналу. І ми отримуємо дуже гарні, персоналізовані результати.
Спробуйте Spotter Studios безкоштовно протягом 7 днів за посиланням. Дивно, наприклад, дякую Spotter Studio за спонсорство сьогоднішнього відео!
Rubber Band: Ваш друг для тобто, генерації сценаріїв та сторібордів
Часто в коментарях мене просять розповісти про генератори сценаріїв та сторібордів, приблизно так. Ми вже бачили кілька спроб. Щоб було ясно, цього разу у нас – Rubber Band.
Він дозволяє вводити сценарій, натискати кнопку “Create Storyboard”, і він починає генерувати кадри для вашого фільму. Мені подобається, що він не прагне до надмірно. Стилізованого реалістичного вигляду, а намагається підтримувати традиційний ескізний стиль.
наприклад,
Не так багато наворотів, що навіть освіжає. Його десь так, можна безкоштовно використовувати, приблизно так. Я вже спробувала!
Я використала для цього Chat GPT. Відверто кажучи, уявіть собі, це короткий сценарій (на дві сторінки) з Гаме Ролс-сцени. “Тінь Ашен Мура”, яка включає короля, лицаря та темного чаклуна.
Імпортуємо його в Rubber Band, і ви. Побачите, що він відмічає відповідних персонажів, локації, предмети тощо. Далі він починає генерувати сторіборди. От, Мені подобається, що є проблеми, типу того. Наприклад, наш король помітно змінюється і тут є ще випадковий лицар. Фактично, але він дає цілком пристойну роботу, розбиваючи ваш сценарій і даючи вам необхідні кадри, приблизно так. Ви, звісно, можете редагувати кадри. Ви можете вибрати різні типи знімків і ви можете додавати та переставляти кадри. Безумовно,
Чи ідеально? Цікаво, звісно, ні проте там навіть не вистачає деяких ключових речей. Але це нормально.
Ось реальний сторіборд з першого “Месників”. Ми бачимо стрілки, які вказують на рух персонажів. Це не ідеальні, деталізовані зображення. Сторіборди не призначені для перегляду та це інструмент попередньої візуалізації. Звичайно,
У Rubber Band є великий потенціал, якось так. Насправді, особливо якщо вони будуть працювати над тим, чого потребують користувачі. Тому, якщо вам це цікаво, спробуйте проте залиште відгук та побажання розробникам. Простіше кажучи,
Midjourney: коригування параметрів Omni Reference
Midjourney тестує функцію Omni Reference. Ще не на 100%, але на шляху до цього. Наприклад, “Я як детектив у нуарному злочинному провулку” – ось результат. Відверто кажучи, я завжди зла, приблизно так. Фактично,
Але це виглядає набагато краще, ніж тиждень тому. Коли я більше була схожа на хулігана з фільму 80-х. Чи завжди виходить ідеально тому ні. В той самий час, в образі з Андора вийшла. Як, не знаю, дитина Джоша Броліна та Біллі Боба Торнтона.
Мій досвід: ви отримаєте непогані результати, якщо знизите стилізацію та вимкнете персоналізацію. Просто виходить таке собі бліде зображення. Я слухайте, слідкуватиму за цим і продовжуватиму експерименти. Простіше кажучи, простіше кажучи,
Runway: Act Two на горизонті?
Чи буде Runway Act Two хоча можливо. Act One дозволяє використовувати відео, скажімо, зняте на вашому телефоні, як драйвер для іншого відео. Мені завжди подобався Act One, хоча він й має свої дивацтва.
Виступ завжди значить, буде кращим за промпт. Ось короткий уривок зі знятого з допомогою Act One.
Act One починає виглядати дещо застаріло – він використовує Gen 3. Тож питання: як це буде виглядати з Gen 4?
Ми не знаємо. Crystal Ball Valenzuela наприклад, з Runway нещодавно виклала твіт з зображенням персонажа. Потім зображення чоловіка в костюмі motion capture та а потім це все об’єдналося. Щоб було ясно, це кадри без руху, але дуже нагадують Act Two. Простіше кажучи, заміна тіла через референс персонажів хоча
Недовго залишилось чекати. Завтра щось випаде! Що це буде, я не знаю, але завтра буде цікаво.
На цьому в мене все. Дякую, що були зі мною!







