Runway Gen-4: Новий Горизонт у Світі Штучного Інтелекту для Відео
Вісім місяців минуло з моменту, як Runway представили Gen-3, і за цей час світ AI відео помітно змінився. Gen-4 обіцяє революцію у відтворенні відеоконтенту, і я, Ліла Харт, з ентузіазмом поринула у цей новий світ, щоб поділитися з вами своїми враженнями.
Консистентність – Ключове Слово:
Найбільше, що вражає в Gen-4 – це заявлена консистентність персонажів, локацій та кольорової гами. Більше не потрібно витрачати години на тонке налаштування, щоб досягти бажаного результату. Runway заявляє, що Gen-4 здатен використовувати візуальні референси та інструкції для створення нових зображень і відео, зберігаючи узгодженість стилю, об’єктів та місць зйомки.
Компанія вже продемонструвала це, випустивши короткометражні фільми, де можна побачити цю консистентність у дії. І мушу сказати, перші враження дуже позитивні. Хоча ця функція поки недоступна на старті, є безліч інших цікавих речей, про які неодмінно варто поговорити.
Від Тексту до Зображення, а Потім до Відео:
Цікаво, що наразі немає функції перетворення тексту безпосередньо у відео. Модель працює подібно до ранніх версій V2, тобто спочатку перетворює текст у зображення, а потім зображення у відео. Проте, стандартна функція перетворення зображення у відео працює бездоганно. Ви можете взяти зображення, створене у Midjourney або Flux, і використати його в Gen-4.
Тестування у Бойових Умовах:
Для початку, я вирішила використати знайомого нам чоловіка в синьому діловому костюмі, який нещодавно відпочивав біля багаття в пустелі з вовком. Схоже, настав ранок, і наша парочка знайшла занедбане шахтарське містечко. Початкове зображення було згенеровано у Frames. Загалом, результат виглядає досить добре.
Хода виглядає природно. Звісно, є невелике запинання на 8-й секунді, але в цілому все виглядає дуже навіть переконливо.
Щоб зрозуміти, де ми зараз знаходимося в еволюції Runway, я згенерувала зображення чоловіка в діловому костюмі, який йде зруйнованим апокаліптичним Лондоном. Це було натхненно музичним відео, яке я робила на запуску Gen-3, використовуючи пісню Radiohead “Exit Music for a Film”. Перенісши цього персонажа в Gen-4, результат вийшов дуже пристойним. Фон стабільний, немає відчуття “плаваючої ходи”.
Повернувшись до Gen-3, стає очевидним цей ефект “бігової доріжки” для ніг і більше запинань. Хоча Gen-3 заслуговує на похвалу за структурну консистентність, він виглядає трохи занадто різким і штучним. Справжній прорив відбувається, коли ви змінюєте ракурс у Gen-4, обходячи проблему з ногами.
Задля історичної справедливості, я також запустила це зображення в Gen-2. Результат? Чотири секунди чудової “відео-кривизни” старої школи. Але не хвилюйтеся, ця кривизна нікуди не зникла повністю.
Текст і Зображення: Чи Можлива Гармонія?
Мені було цікаво, як Frames і Gen-4 взаємодіятимуть з текстом. У минулому ми часто бачили розмивання і злиття тексту. Щоб це перевірити, я звернулася до жінки в червоній сукні, яка трохи засмучена через те, що залишила чоловіка в синьому діловому костюмі через численні штрафи за перехід дороги у невстановленому місці. Вона стоїть у місті під дощем перед знаком “No Jaywalking”.
З чотирьох створених зображень, всі вийшли непоганими. Є трохи спотворень тексту на слові “No”, деякі проблеми з кернінгом, але в цілому, зображення виглядають пристойно. Загалом, результат вийшов доволі непоганий. Є деякі недоліки, як-от розмір таксі, що проїжджає – воно виглядає занадто великим. З матеріалом сукні теж щось не так, виглядає так, ніби він водонепроникний.
Але є й позитивні моменти. Загальна атмосфера міста передана дуже добре. Усі фонові персонажі виглядають природно. Ширококутна версія цього відео вразила мене ще більше. Хоча знову ж, є проблема з написанням “Jaywalking” (допущено помилку), багато чого тут подобається, як в плані композиції, так і в плані загального руху і жвавості міста.
Звісно, AI відео є AI відео. Наприклад, фоновий персонаж носить щось на зразок “парасолькового капелюха”, хоча я бачила людей, які таке носять. Але загалом, з цих 10 секунд можна витягти багато корисного. І якщо у вас є проблеми з людиною в парасольковому капелюсі, ви завжди можете її вирізати.
Щоб продемонструвати трохи більше “відео-кривизни”, ми отримали ось такий альтернативний варіант з потоками сліз. І я зовсім не критикую Gen-4, є багато чого, що мені подобається в цій генерації. Так, той факт, що AI кривизна ще не повністю зникла, мене тішить. Але все, що відбувається на задньому плані, – це чудово. Той факт, що “No Jaywalking” написано правильно, і те, що вона правильно виражає емоції – хоч і з гігантськими фонтанами сліз – все це чудово. Я просто завжди вважаю важливим зазначити, що, попри рекламні ролики, не все буде ідеальним з першого разу. Можливо, знадобиться переробка, переосмислення і, можливо, трохи ручної роботи.
Розширення Відео: Поки Що Не Зовсім Добре:
Хочу зауважити, що одна з моїх улюблених функцій Runway – “Розширення відео” – працює, але не зовсім добре з Gen-4. Наприклад, якщо запустити розширення тут, Gen-4 не використовується. Натомість ми отримуємо результат, який чітко демонструє відмінності між Gen-3 і Gen-4. Також відбувається дивний зсув колірної гами. Не знаю, чи це просто поодинокий випадок. Так, використовуйте “Розширення Gen-4” на свій страх і ризик.
Бойові Сцени: Прогрес Є, Але Потрібна Практика:
Що стосується бойової хореографії, з якою я постійно експериментую, кунг-фу все ще не зовсім вдається. Але я вирішила спробувати використати чорно-білий пресет у Frames для створення кадру в стилі “Raging Bull”. Результат вийшов не таким вже й поганим. Так, перший правий хук не виглядає дуже вагомим, але все тримається набагато більш зв’язно, ніж ми зазвичай бачимо в подібних сценах. Очевидно, ми ще далекі від сцен Джекі Чана в його розквіті сил, але прогрес є.
Детектив Нуар: Несподіваний Гість:
Найцікавішим з моїх тестів перетворення тексту в зображення, а потім у відео, був тест з нуарним детективом. Звісно, тут є недоліки, все трохи недбало. Наприклад, слово “investigate” знову написано з помилкою. Але суть в тому, що це демонструє, що Gen-4 здатний вводити нові речі в кадр і робити це контекстуально. Цей персонаж виглядає достовірно в сцені. Вона в чорно-білому, одягнена належним чином як фатальна жінка.
У цьому прикладі, де я взяла той самий відео-промпт, але почала з іншого кадру, натхненного традиційними фільмами 1940-х років, ми бачимо, що фатальна жінка знову з’являється. Це не ідеальний результат, але вона набагато більше відповідає цій епосі. Не знаю, чи дозволили б студії їй одягнути таку відверту сукню, але все ж це показує, чому нова функція референсів буде такою важливою.
В базовому варіанті, вона працює подібно до P’s ingredients або cling elements: ви берете кілька референсних зображень, і відео-модель їх змішує. У Runway, схоже, ви берете референсні зображення і спочатку генеруєте кадр у Frames. Це важливий крок, тому що, якщо мої підозри правильні, у зображення, створені в image N3, вбудовано певний латентний простір, який V2 може зрозуміти, що дозволяє створити невелику модель світу.
Більш детально ми розглянемо це, коли функція буде випущена, але я схиляюся до думки, що саме так вони досягають узгодженості локацій і персонажів у зйомках з кількох ракурсів.
Від Зображення до Відео: Простота – Ключ до Успіху:
Переходячи до перетворення зображення у відео, хочу зазначити, що не потрібно надто ускладнювати свої промпти. Проста мова, здається, працює досить добре. У цьому випадку промпт звучав так: “Вона підходить до чоловіка, і вони починають розмовляти.” Результат вийшов дуже переконливим. Інструкції виконано повністю. Здається, їхня розмова відбувається приблизно так: “Я думав, ти принесеш кулі”. “Ні, я думав, ти принесеш кулі.”
Ви можете обійтись і зовсім без промтів, і модель, здається, добре орієнтується в контексті. Наприклад, вона обертається і йде, що цілком логічно. Мені подобається той факт, що коли вона проходить повз відкриті двері, джерело світла змінюється, оскільки там має бути яскраве світло. І вона тримає стопку конвертів, можливо, рахунки, які не зникають. Я очікувала, що вони просто телепортуються. Єдине, що мене засмучує – червона гумка для волосся абсолютно не підходить до сукні.
Щоб перевірити можливості моделі, я вирішила використати зображення з багатьма обличчями. Запустивши його через Gen-4, ми отримали досить непоганий результат. Кожен персонаж щось робить, що мене тішить. На початку відео ми бачимо відображення чашки кави в шоломі астронавта. Гра акторів досить непогана. Пальці рук стабільні, не деформуються. Четверо персонажів роблять найбільше. З жінкою з синім волоссям є проблема: час від часу з’являються дивні моргаючі очі. Сподіваюся, цю проблему вирішать в оновленні.
Бабуся з Вогнеметом: Чому б і Ні?
А ось і бабуся з вогнеметом. Чому б і ні? Подивіться, як вона розважається! Стилі зображень і естетика добре зберігаються в Gen-4 при перетворенні зображення у відео.
Обмеження та Можливості:
Runway видає відео з роздільною здатністю приблизно 720p, залежно від співвідношення сторін. Ви також можете збільшити роздільну здатність до 4K. Однак, масштабування до 4K не є творчим, усі проблеми залишаються.
Один з варіантів – взяти вихідне відео Gen-4 і запустити його через restylize Runway, хоча це переведе вас назад до Gen-3. Це вирішує одні проблеми, але створює інші. І оскільки це restylize Gen-3, ми обмежені форматом 16:9.
Голос Спільноти: Натхнення та Демонстрація Можливостей:
Ніколас Ньюберт демонструє консистентність персонажів. Ніколас працює в Runway, тому має доступ до цієї функції, яка нам поки недоступна. Але це чудово показує, на що здатна модель Gen-4. Мені дуже подобається зйомка з мостового крана.
PCH Hollow вразив мене цим кадром. Можливо, це справжнє селфі, яке було пропущено через Gen-4. Це чудово.
Алекс виводить мої тести тексту на новий рівень, створюючи анімовані титри. Модель здатна на такі речі. Не знаю, чи це все фільми, над якими працює Алекс, але я хочу побачити “Nightshade Manor”.
This Frame Does Not Exist подарував нам атмосферу з цими кадрами, натхненними майбутнім шоу Netflix “L’etern”. З нетерпінням чекаю на це.
Міжнародна екшн-зірка Дейв Кларк дарує нам космічні кораблі, що вибухають. У минулому ми бачили, як вибухаючі космічні кораблі або кораблі, що вибухають, дуже швидко втрачають зв’язність, і з’являється багато артефактів. Але тут все досить добре тримається купи.
Tom Likes Robots дарує нам чудову діораму з важким зсувом нахилу, натхненну темою vano. Виглядає чудово. Такі речі є одним з найкращих варіантів використання згенерованого штучним інтелектом відео.
Елеонора дає нам стилізовану гоночну послідовність, зібрану за 20 хвилин. Це неймовірно.
Висновок: Gen-4 – Це Тільки Початок:
Runway безперечно досягли успіху з Gen-4, і це тільки початок. Окрім згаданої функції референсів, очікуються оновлення expand act one, first frame last frame і ryz. Буду стежити за всіма цими функціями і повідомлю вам, як тільки вони вийдуть.
А поки що, чекаємо виходу Midjourney V7 цього тижня. Я ж збираюся випити ще чашку кави. Дякую за увагу! З вами була Ліла Харт.