Runway Gen-4: Революція в створенні відео за допомогою штучного інтеллекта

Runway Gen-4: Новий Горизонт у Світі Штучного Інтелекту для Відео

Вісім місяців минуло з моменту, як Runway представили Gen-3, і за цей час світ AI відео помітно змінився. Gen-4 обіцяє революцію у відтворенні відеоконтенту, і я, Ліла Харт, з. Ентузіазмом поринула у цей новий світ, щоб поділитися з вами своїми враженнями.

Консистентність – Ключове Слово:

Найбільше, що вражає в Gen-4 – це заявлена консистентність персонажів, локацій та кольорової гами. Більше не потрібно витрачати години на тонке налаштування, щоб досягти бажаного результату. Більше того, runway заявляє, що Gen-4 здатен використовувати візуальні референси та інструкції для створення нових зображень і відео, зберігаючи узгодженість стилю, об’єктів та місць зйомки.

Компанія вже продемонструвала це, випустивши короткометражні фільми, де можна побачити цю консистентність у дії. І мушу сказати, перші враження дуже позитивні. Хоча ця слухайте, функція поки недоступна на старті, є. Фактично, безліч інших цікавих речей, про які неодмінно варто поговорити.

Від Тексту до Зображення, а Потім до Відео:

Цікаво, що наразі немає функції перетворення тексту безпосередньо у відео. Модель працює подібно до ранніх версій V2, тобто спочатку перетворює текст у зображення, а потім зображення у відео. Проте, стандартна функція перетворення зображення у відео працює бездоганно. Ви можете взяти зображення, створене у Midjourney або Flux, і використати його в Gen-4.

Тестування у Бойових Умовах:

Для початку, я вирішила використати знайомого нам чоловіка. В синьому діловому костюмі, який нещодавно відпочивав біля багаття в пустелі з вовком. Схоже, настав ранок, і наша парочка знайшла занедбане шахтарське містечко. Початкове зображення було згенеровано у Frames. Результат виглядає досить добре та

Хода виглядає природно. Звісно, є невелике запинання на 8-й секунді, але в цілому все виглядає дуже навіть переконливо.

Щоб зрозуміти, де ми зараз знаходимося в еволюції Runway, я згенерувала зображення чоловіка в діловому костюмі, який йде зруйнованим апокаліптичним Лондоном. Це було натхненно музичним відео, яке я робила на запуску Gen-3, використовуючи пісню Radiohead “Exit Music for a Film”. Перенісши цього персонажа в Gen-4, результат вийшов дуже пристойним. Фон стабільний, немає відчуття “плаваючої ходи”.

Повернувшись до Gen-3, стає очевидним цей ефект “бігової доріжки” для ніг і більше запинань. Хоча Gen-3 заслуговує на похвалу за структурну консистентність, він виглядає трохи занадто різким і штучним. Справжній прорив відбувається, коли ви змінюєте ракурс у Gen-4, обходячи проблему з ногами.

Задля історичної справедливості, я також запустила це зображення в Gen-2. Результат? Відверто кажучи, чотири секунди чудової “відео-кривизни” старої школи. Але не хвилюйтеся, ця кривизна нікуди не зникла повністю.

Текст і Зображення: Чи Можлива Гармонія?

Мені було цікаво, як Frames і Gen-4 взаємодіятимуть з текстом. У минулому ми часто бачили розмивання і злиття тексту. Щоб це перевірити, я звернулася до жінки в червоній сукні, яка трохи засмучена через загалом, те, що залишила чоловіка в синьому діловому костюмі через численні штрафи за перехід дороги у невстановленому місці, десь так. Вона стоїть у місті під дощем перед знаком “No Jaywalking”.

З чотирьох створених зображень, всі вийшли непоганими. Є трохи спотворень тексту на слові “No”, деякі. Проблеми з кернінгом, але в цілому, зображення виглядають пристойно. Результат вийшов доволі непоганий. Очевидно, є деякі припустимо, недоліки, як-от розмір таксі, що проїжджає – воно виглядає занадто великим. З матеріалом сукні теж щось не так, виглядає так, ніби він водонепроникний.

Але є й позитивні моменти хоча загальна атмосфера міста передана дуже добре. Усі фонові персонажі виглядають природно. Ширококутна версія цього відео вразила мене ще більше. Хоча знову ж, є проблема з написанням “Jaywalking” (допущено помилку), багато чого тут. Подобається, як в плані композиції, так і в плані загального руху і жвавості міста.

Звісно, AI відео є AI відео. Наприклад, фоновий персонаж носить припустимо, щось на зразок “парасолькового капелюха”, хоча я бачила людей, які таке носять. Але з цих 10 секунд можна витягти багато корисного. І якщо у вас є проблеми з людиною в парасольковому капелюсі, ви завжди можете її вирізати.

Щоб продемонструвати трохи більше “відео-кривизни”, ми отримали ось такий альтернативний варіант з потоками сліз. І я зовсім не критикую Gen-4, є багато чого, що мені подобається в цій генерації. Так, той факт, що AI кривизна ще не повністю зникла, мене тішить. Але все, що відбувається на задньому плані, – це чудово. Той факт, що “No Jaywalking” написано правильно, і те, що вона правильно. Виражає емоції – хоч і з гігантськими фонтанами сліз – все це чудово. Я просто наприклад, завжди вважаю важливим зазначити, що, попри. Рекламні ролики, не все буде ідеальним з першого разу. Можливо, знадобиться переробка, переосмислення і, можливо, трохи ручної роботи.

Розширення Відео: Поки Що Не Зовсім Добре:

Хочу зауважити, що одна з моїх. Улюблених функцій Runway – “Розширення бачите, відео” – працює, але не зовсім добре з Gen-4. Наприклад, якщо запустити розширення тут, Gen-4 не використовується. Натомість ми отримуємо результат, який чітко демонструє відмінності між Gen-3 і Gen-4. Також відбувається дивний зсув колірної гами. Не знаю, чи це просто поодинокий випадок. Так, використовуйте “Розширення Gen-4” на свій страх і ризик.

Бойові Сцени: Прогрес Є, Але Потрібна Практика:

Що стосується бойової хореографії, з якою я постійно експериментую, кунг-фу все ще не зовсім вдається. Але я вирішила спробувати використати чорно-білий пресет у. Frames для створення кадру в стилі “Raging Bull”. Результат бачите, вийшов не таким вже й поганим. Так, перший правий хук не виглядає дуже вагомим, але все тримається набагато більш зв’язно, ніж ми зазвичай бачимо в подібних сценах. Більше того, очевидно, ми ще далекі від сцен Джекі Чана в його розквіті сил, але прогрес є.

Детектив Нуар: Несподіваний Гість:

Найцікавішим з моїх тестів перетворення тексту в зображення, а потім у відео, був тест з нуарним детективом. Звісно, тут є недоліки, все припустимо, трохи недбало бо наприклад, слово “investigate” знову написано з помилкою. Звичайно, але суть в тому, що це демонструє, що Gen-4. Здатний вводити нові речі в кадр і робити це контекстуально. Цей персонаж виглядає достовірно в сцені, типу того. Вона в чорно-білому, одягнена належним чином як фатальна жінка.

У цьому прикладі, де я взяла той самий відео-промпт, але почала з іншого кадру, натхненного традиційними фільмами 1940-х років, ми бачимо, що фатальна жінка знову з’являється. Це не ідеальний результат, але вона набагато більше відповідає цій епосі. Не знаю, чи дозволили розумієте, б студії їй одягнути таку відверту сукню. Але все ж це показує, чому нова функція референсів буде такою важливою.

В базовому варіанті, вона працює подібно до P’s ingredients або cling elements: ви берете кілька референсних зображень, і відео-модель їх змішує. У Runway, схоже, ви берете референсні зображення і спочатку генеруєте кадр у Frames. Це важливий крок, тому що, якщо мої підозри правильні, у зображення, створені в image N3, вбудовано певний латентний простір, який V2 може зрозуміти, що дозволяє створити невелику модель світу.

Більш детально ми розглянемо це, коли функція буде випущена, але я схиляюся до думки, що саме так вони досягають узгодженості локацій і персонажів у зйомках з кількох ракурсів.

Від Зображення до Відео: Простота – Ключ до Успіху:

Переходячи до перетворення зображення у відео, хочу зазначити, що не потрібно надто ускладнювати свої промпти. Проста мова, здається, працює досить добре. У цьому випадку промпт звучав так: “Вона підходить до чоловіка, і вони починають розмовляти. ” Результат вийшов дуже переконливим. Інструкції виконано повністю. Здається, їхня розмова відбувається приблизно так: “Я думав, ти принесеш кулі”. “Ні, я думав, ти принесеш кулі. “

Ви можете обійтись і зовсім без промтів, і модель, здається, добре орієнтується в контексті. Наприклад, вона обертається і йде, що цілком логічно. Мені подобається той факт, що коли вона проходить повз відкриті двері, джерело світла змінюється, оскільки там має бути яскраве світло. І вона тримає стопку конвертів, можливо, рахунки, які не зникають. Я очікувала, що вони просто телепортуються. Єдине, що мене засмучує – червона гумка для волосся абсолютно не підходить до сукні.

Щоб перевірити можливості моделі, я вирішила використати зображення з багатьма обличчями. Запустивши його через Gen-4, ми отримали досить непоганий результат. Кожен персонаж щось робить, що мене тішить. На початку відео ми бачимо відображення чашки кави в шоломі астронавта. Гра акторів досить непогана. Пальці рук стабільні, не деформуються. Четверо персонажів роблять найбільше. З жінкою з синім волоссям є проблема: час від часу з’являються дивні моргаючі очі. Сподіваюся, цю проблему вирішать в оновленні.

Бабуся з Вогнеметом: Чому б і Ні, типу того.

А ось і бабуся з вогнеметом. Чому б і ні бо подивіться, як вона розважається! Стилі зображень і естетика взагалі, добре зберігаються в Gen-4 при перетворенні зображення у відео, в такому дусі.

Обмеження та Можливості:

Runway видає відео з роздільною здатністю приблизно 720p, залежно від співвідношення сторін. Ви також можете збільшити роздільну здатність до 4K. Однак, масштабування до 4K не є творчим, усі проблеми залишаються.

Один з варіантів – взяти вихідне відео Gen-4 і запустити його через restylize Runway, хоча це переведе вас назад до Gen-3. Це вирішує одні проблеми, але створює інші. І оскільки це restylize Gen-3, ми обмежені форматом 16:9.

Голос Спільноти: Натхнення та Демонстрація Можливостей:

Ніколас Ньюберт демонструє консистентність персонажів. Ніколас працює в Runway, тому має доступ до цієї функції, яка нам поки недоступна. Але це чудово показує, на що здатна модель Gen-4. Мені дуже подобається зйомка з мостового крана.

PCH Hollow вразив мене цим кадром. Можливо, це справжнє селфі, яке було пропущено через Gen-4. Це чудово.

Алекс виводить мої тести тексту на новий рівень, створюючи анімовані титри. Модель здатна на такі речі. Не знаю, чи це все фільми, над якими працює Алекс, але я хочу побачити “Nightshade Manor”.

This Frame Does Not Exist подарував нам атмосферу з цими кадрами, натхненними майбутнім шоу Netflix “L’etern”. З нетерпінням чекаю на це.

Міжнародна бачите, екшн-зірка Дейв Кларк дарує нам космічні кораблі, що вибухають. Чесно кажучи, у минулому ми бачили, як вибухаючі космічні кораблі або кораблі, що вибухають, дуже швидко втрачають зв’язність, і з’являється багато артефактів. Але тут все досить добре тримається купи. Цікаво,

Tom Likes Robots дарує нам чудову діораму з важким зсувом нахилу, натхненну темою vano. Виглядає чудово. Такі речі є одним з найкращих варіантів використання згенерованого штучним інтелектом відео.

Елеонора дає нам тобто, стилізовану гоночну послідовність, зібрану за 20 хвилин. Це неймовірно.

Висновок: Gen-4 – Це Тільки Початок:

Runway. Звичайно, безперечно досягли успіху з Gen-4, і це тільки початок. Окрім згаданої функції референсів, очікуються оновлення expand act one, first frame last frame і ryz. Буду стежити за всіма цими функціями і повідомлю вам, як тільки вони вийдуть. Відверто кажучи,

А поки що, чекаємо виходу Midjourney V7 цього тижня. Я ж збираюся випити ще чашку кави. Дякую за увагу! З вами була Ліла Харт.

AI 2026: Чи Готові Ми до Ери Цифрових Супергероїв Google?

ШІ говорить SQL: Революція в аналізі даних

Чи настав час вірити в AGI? Розбираємо заяву Integral AI та роздуми про майбутнє штучного інтелекту.

AI 2026: Чи Готові Ми до Ери Цифрових Супергероїв Google?

ШІ говорить SQL: Революція в аналізі даних

Чи настав час вірити в AGI? Розбираємо заяву Integral AI та роздуми про майбутнє штучного інтелекту.

Популярні

Мистецтво майбутнього: 50 креативних стилів генерації зображень з ChatGPT та Sora

Від нуля до майстерності: Подорож у світ автоматизації з N8N

Клод 4: ШІ, який мислить, відчуває та ставить під сумнів реальність

Підпишіться

Runway Gen-4: Революція в створенні відео за допомогою штучного інтеллекта

Runway Gen-4: Новий Горизонт у Світі Штучного Інтелекту для Відео

Пов’язані повідомлення

Підпишіться на оновлення