Штучний інтелект у творчості: Огляд та Подих Майбутнього
Привіт всім! Сьогодні я хочу поділитися з вами захоплюючим оглядом останніх новин з творчого світу штучного інтелекту. Світ технологій не стоїть на місці, і я відчуваю, як у повітрі витає передчуття чогось неймовірного. Давайте разом поринемо у цей дивовижний процес та розберемось, що нового приготували нам гіганти та відкриті розробники.
LTX: Турбо-версія для блискавичної творчості
Почнемо з захоплюючої новини від LTX. Вони випустили дистильовану модель свого нового 13B. Якщо ви слідкуєте за моїми відео, то знаєте, що ми вже обговорювали оновлену модель 13B. Але сьогодні зосередимо увагу на її турбо-версії, тобто на “турбо-двигуні”.
Що тут крутого? Швидкість! LTX стверджує, що якісні результати досягаються всього за чотири-вісім кроків. Мултимасштабний рендеринг завершується всього за 12 секунд.
Але чи означає це, що старий комп’ютер видасть шедевр за цей час? Ні, звичайно. Але якщо у вас відносно сучасний графічний процесор, ви повинні бути у виграші. Я мушу сказати, що турбо-модель LTX тримає удар досить добре, навіть краще, ніж Gen4 Turbo, яку я особисто не використовую через її непередбачуваність.
Чому так добре працює LTX Turbo? Ймовірно, це пов’язано з архітектурою LTX, а саме з багатомасштабним рендерингом. Спочатку створюється ескіз вашого відео, а потім поступово додаються шари для уточнення.
Якщо ви не дуже добре розбираєтесь в технічних тонкощах, але хочете спробувати LTX Turbo, ви можете використовувати платформу HuggingFace, адже вона з відкритим вихідним кодом. Просто заливаєте зображення, пишете промпт (наприклад, “машина обертається”), встановлюєте тривалість генерації в 5 секунд, і ось результат. Швидко та якісно! Я, звісно, не отримала 12 секунд, використовуючи безкоштовний графічний процесор, але 41 секунда – теж непогано.
А якщо ви хочете швидкості, вирушайте на платформу LTX Studio. Я завантажила зображення нашої Кіберпанк Вікінг, який пішов пиячити вдень з випадковим перехожим. Результат вийшов трохи більше 12 секунд – і це виглядає дуже добре.
WAN 2.1 та Vase: Все в одному для відео творчості
Тепер переходимо до WAN 2.1 або WAX, як його називали протягом коротких 48 годин, (я цього ніколи не забуду). Вони випустили WAN 2.1 vase. Що ж таке Vase? Це універсальна модель для створення та редагування відео. Вона робить все те, що ми бачили на передовій AI-відео – від прив’язки посилання до відео, до відтворення об’єктів, розширення полотна та зміни будь-чого.
Результати вражають. У нас є контроль над анімацією персонажів, вхідне зображення та анімований кубик, що рухається вправо. Ми також можемо контролювати, коли хлопець встане і піде. Є маскований відео-інпейнтінг. Вихідне відео, живі кадри, чи 3D анімація, а замість фігурки кладемо маску, отримуємо відмінний результат.
Ще один неймовірний приклад – художник, який малює пейзаж. Хтось, напевно, впізнав хлопця з оригінальних відео Sora. Дуже круто, що відео-драйвер – це саме це. Отже, хтось замаскував картину і замінив її. Класно, правда?
Ефект “відео у відео” виглядає дуже переконливо. Ось, наприклад, реальне кадри з дрона, оброблені через WAN Vase. Виглядає чудово!
А ось ще один приклад, який мене дуже вразив. AI-генероване зображення орла, який пірнає за здобиччю. А драйвером для цього виступає текст. Це справді цікаво, враховуючи тенденції у великих мовних моделях, як-от ChatGPT та Gemini. Можливо, це буде дуже цікавим кит-башингом: спочатку створюємо щось за допомогою LLM, а потім використовуємо це як драйвер для таких інструментів, як WAN з Vase.
Код WAN 2.1 Vase доступний у двох версіях – 1.3B та 14B. Я не знаю, які вимоги до моделей WAN Vase. Але звичайна модель 2.1 потребує всього 8 ГБ відеопам’яті. Якщо ви не запускаєте моделі локально, не турбуйтеся, вони з’являться скрізь вже найближчим часом.
Нові горизонти: Hunnan та V3 від Google
Термінова новина! Хунан випускає нову модель зображень. Більше інформації у мене немає, але сподіваюсь, ми скоро про неї дізнаємось. Вони, здається, випускають оновлення з відкритим вихідним кодом щоп’ятниці.
З боку Google, ми побачимо V3 наступного тижня. І це буде з «додатковими спеціями», напередодні великої конференції Google IO. Разом з Imagen 4, з’явиться модель Imagen 4 Ultra, а також згадка про модель V3 preview.
Тут все стає ще цікавіше. Ми бачимо не тільки VO3, але й неуточнену модель VO та VO Echo’s pose custom image to video. Звучить дуже захопливо! Що це таке? Не знаю. Але звучить круто!
Spotter Studio: Ваш провідник у світ YouTube
Перш ніж ми перейдемо до генераторів сценаріїв та сторібордів, хочу трохи відступити від теми.
Як ви знаєте, більшість з нас, творців контенту, працюють над відео: фільмами, музичними кліпами, експериментальними роботами. Ми створюємо щось, що має потрапити в очі глядачів.
І, ймовірно, у багатьох є канал на YouTube, і ви, можливо, думаєте про те, щоб перетворити його на стабільне джерело доходу. Це цілком можливо. І в цьому може допомогти спонсор сьогоднішнього відео – Spotter Studio.
Spotter Studio – це творча та орієнтована на дані платформа, яка допомагає професійним ютуберам та тим, хто тільки збирається ними стати. Вона має низку інструментів AI, які допоможуть вам генерувати ідеї, пріоритезувати та пакувати ваші наступні відео за допомогою персоналізованих інсайтів.
Я особисто не дуже люблю займатися назвами та мініатюрами для YouTube. А мені доводиться робити це по два-три рази на тиждень. Отже, чудова функція Spotter Studio – саме про це. Наприклад, зараз я планую зробити відео про найкращі інструменти AI для синхронізації губ.
З Spotter я можу попрацювати над назвою, мініатюрою та навіть хуком для відео. Давай почнемо з назви. У нас є чудовий стартовий пункт. Ми можемо продовжувати працювати з цим, отримати багато різних варіантів. Давайте спробуємо Power Up, де ми отримаємо ще більше гучних заголовків. Я хочу залишити варіант “AI інструменти синхронізації губ розкриті”.
Далі – ідеї для мініатюри. І ми отримали такі результати. Зверніть увагу, що ми розглядаємо багато зображень AI. Вони мають бути джерелом натхнення, а також допомагати з розташуванням тексту. Мені подобається ця мініатюра. Я використаю її.
Ще одна корисна функція! Spotter допомагає з роботою над хуками. Мені потрібні ідеї саме для мого каналу. І ми отримуємо дуже гарні, персоналізовані результати.
Спробуйте Spotter Studios безкоштовно протягом 7 днів за посиланням. Дякую Spotter Studio за спонсорство сьогоднішнього відео!
Rubber Band: Ваш друг для генерації сценаріїв та сторібордів
Часто в коментарях мене просять розповісти про генератори сценаріїв та сторібордів. Ми вже бачили кілька спроб. Цього разу у нас – Rubber Band.
Він дозволяє вводити сценарій, натискати кнопку “Create Storyboard”, і він починає генерувати кадри для вашого фільму. Мені подобається, що він не прагне до надмірно стилізованого реалістичного вигляду, а намагається підтримувати традиційний ескізний стиль.
Не так багато наворотів, що навіть освіжає. Його можна безкоштовно використовувати. Я вже спробувала!
Я використала для цього Chat GPT. Це короткий сценарій (на дві сторінки) з Гаме Ролс-сцени “Тінь Ашен Мура”, яка включає короля, лицаря та темного чаклуна.
Імпортуємо його в Rubber Band, і ви побачите, що він відмічає відповідних персонажів, локації, предмети тощо. Далі він починає генерувати сторіборди. Мені подобається, що є проблеми. Наприклад, наш король помітно змінюється. Тут є ще випадковий лицар. Але він дає цілком пристойну роботу, розбиваючи ваш сценарій і даючи вам необхідні кадри. Ви, звісно, можете редагувати кадри. Ви можете вибрати різні типи знімків. Ви можете додавати та переставляти кадри.
Чи ідеально? Звісно, ні. Там навіть не вистачає деяких ключових речей. Але це нормально.
Ось реальний сторіборд з першого “Месників”. Ми бачимо стрілки, які вказують на рух персонажів. Це не ідеальні, деталізовані зображення. Сторіборди не призначені для перегляду. Це інструмент попередньої візуалізації.
У Rubber Band є великий потенціал. Особливо якщо вони будуть працювати над тим, чого потребують користувачі. Тому, якщо вам це цікаво, спробуйте. Залиште відгук та побажання розробникам.
Midjourney: коригування параметрів Omni Reference
Midjourney тестує функцію Omni Reference. Ще не на 100%, але на шляху до цього. Наприклад, “Я як детектив у нуарному злочинному провулку” – ось результат. Я завжди зла.
Але це виглядає набагато краще, ніж тиждень тому, коли я більше була схожа на хулігана з фільму 80-х. Чи завжди виходить ідеально? Ні. В той самий час, в образі з Андора вийшла, як, не знаю, дитина Джоша Броліна та Біллі Боба Торнтона.
Мій досвід: ви отримаєте непогані результати, якщо знизите стилізацію та вимкнете персоналізацію. Просто виходить таке собі бліде зображення. Я слідкуватиму за цим і продовжуватиму експерименти.
Runway: Act Two на горизонті?
Чи буде Runway Act Two? Можливо. Act One дозволяє використовувати відео, зняте на вашому телефоні, як драйвер для іншого відео. Мені завжди подобався Act One, хоча він й має свої дивацтва.
Виступ завжди буде кращим за промпт. Ось короткий уривок зі знятого з допомогою Act One.
Act One починає виглядати дещо застаріло – він використовує Gen 3. Тож питання: як це буде виглядати з Gen 4?
Ми не знаємо. Crystal Ball Valenzuela з Runway нещодавно виклала твіт з зображенням персонажа. Потім зображення чоловіка в костюмі motion capture. А потім це все об’єдналося. Це кадри без руху, але дуже нагадують Act Two. Заміна тіла через референс персонажів.
Недовго залишилось чекати. Завтра щось випаде! Що це буде, я не знаю, але завтра буде цікаво.
На цьому в мене все. Дякую, що були зі мною!