Wan 2.1: Новий Горизонт у Світі AI Відео, Звук та Емоції (огляд від Lila Hart)
Сьогодні день прем’єри нової моделі AI відео, і я, чесно кажучи, в захваті! Ми поглянемо на Wan 2.1 – абсолютно безкоштовну, з відкритим кодом, та ще й з платформою для безкоштовного тестування. Навіть якщо безкоштовний майданчик зникне, генерація відео з цією моделлю обіцяє бути цілком доступною. Отже, подивимось, чи стане Wan 2.1 справжньою знахідкою.
А ще, ми крадькома зазирнемо на новий відео-апскейлер від Topaz Labs, який теж можна зараз спробувати безкоштовно. Перевіримо, як він справляється з AI відео. І готуйте навушники! Luma Labs додали аудіо до відео в Dream Machine. Може, це й не новинка, але дуже цікава фішка.
Почнемо з Wan 2.1 від Alibaba, який нарешті вийшов. Ми вже згадували про анонс минулого тижня, коли він ще називався Wan X (можливо, Wanks). Мабуть, десь там вирішили, що з іксом – занадто ризиковано, і прибрали його. Хоча, як на мене, Wanks запам’ятовувався краще!
В цілому, Wan 2.1 виглядає дуже перспективно. Він вміє генерувати відео з тексту, зображень, і, на додачу, відео з відео. Модель обіцяє реалістичну фізику, що демонструють нам на прикладі, як би виглядала дитина Сідні Свіні та Скарлетт Йоганссон. Вони точно знають, що роблять! Також, модель демонструє свою кінематографічність. Це те, за що я критикувала початковий трейлер, але тут – все виглядає просто чудово.
Отже, хтось там точно не спить на роботі. І хоча функція “відео з відео” ще не вийшла, вона включатиме in-painting (можливість корегувати окремі частини кадру), тож відео з левом, що п’є каву, можна буде перетворити на ведмедя. Також обіцяють out-painting – розширення кадру з 9:16 до, наприклад, ширшого 16:9. І ще – можливість використовувати кілька зображень як референси, як в Cling або Pika.
Коротко про відкритий код: так, код і ваги тепер доступні для завантаження. Є дві моделі: 1.3B та 14B. Обидві вміють генерувати відео з тексту та зображень. Модель 1.3B вимагає всього 8 гігабайт відеопам’яті і генерує 5-секундний 480p кліп на 4090 приблизно за 4 хвилини. Це значний прогрес у порівнянні зі Sky Rails, який ми розглядали минулого тижня. Там на 5-секундне відео йшло чи не півтори години!
Модель 14B здатна видавати 720p. На жаль, немає інформації про те, скільки часу потрібно для генерації з цією моделлю на 4090. Думаю, значно більше. Тож, для 14B вам знадобиться потужніша машина.
Але нам пощастило, Wan 2.1 з’являється буквально всюди! Я тестувала генерацію на Faall.ai, на Nim і на Krea. Почнемо з прикладів “текст у відео” на Faall.ai. Так, сьогодні ми трохи пострибаємо по платформах. Вибачте, але сьогодні в мене такий настрій. Перевіримо нашого героя в синьому діловому костюмі, якого ми востаннє бачили, коли він прокидався на вокзалі.
Схоже, він, як і ми, не знає, де він. Я хотіла перевірити, як Wan 2.1 справляється з генерацією тексту. Як на мене, він впорався. 5-секундний вихід у 720p виглядає дуже добре. Faall явно використовує модель 14B. Все, від фону до образу чоловіка, виглядає фантастично. Особливо мені сподобався його зітх і питання в очах: “Де я?”. Просто чудово!
Інший приклад “текст у відео” – хлопець, який або йде на екшн-сцену в ролі найманого вбивці №3, або готується запалювати на сцені з Black Eyed Peas. Не знаю, що з цього. Кілька речей, на які я звернула увагу. Дуже сподобався рух камери і те, як іде хлопець. Цікаво, що генерація тривала всього 3 секунди замість очікуваних 5. Можливо, десь є проблеми з руками, текст на задньому плані виглядає нерозбірливим, хоча я його й не просила. А ще мені сподобалась синя вантажівка на задньому плані, яка надає відео відчуття глибини. Єдиний нюанс: трохи стрибає кадр. Але в мене є рішення, про яке я розповім пізніше.
Коротко про ціни на Faall.ai. Кожна генерація – 0.4 долари. Це значно менше, ніж 50 центів за секунду у V2, який ми розглядали минулого разу. З естетичної точки зору, Wan 2.1 – на рівні з V2, а можливо, навіть трохи краще за V2 Turbo в YouTube Shorts. Але, як я вже казала, смаки у всіх різні.
Перестрибуємо на Nim.video. Знову ж таки, вибачте, сьогодні все трохи хаотично. Зліва – кадр з V2 YouTube Shorts Turbo, справа – вихід Wan 2.1. Промпт – той самий. Варто зазначити, що генерація відбувається у 1280×720 з 16 кадрами в секунду. Класно, що на Nim є безкоштовний апскейлер. Можна збільшити роздільну здатність в 2 або навіть 4 рази, а також подвоїти частоту кадрів. Я подвоїла роздільну здатність і залишила подвійну частоту кадрів. Після невеликої перерви (зізнаюсь, хвилин 20) ми отримали генерацію у 2048×1152 з 32 кадрами в секунду.
Ще один момент про безкоштовний апскейлер. Він обмежує вас 150 кадрами, тож, якщо у вас відео з 30 кадрами в секунду, то багато з нього не вийде. Але для Wan 2.1 це – ідеальний варіант.
Переходимо до тестів “зображення у відео”. Це – ваш старий друг Джек Бертон з, як я люблю казати, найкращого фільму всіх часів. Я б не назвала його поганим, але… у тому повороті голови він стає все більше схожим на якогось типового актора з 80-х. Але мені здалось, що цей вихід стане гарною можливістю зазирнути в Topaz Labs і спробувати Project Starlite.
Project Starlite – це нова програма для відновлення і очищення відео від Topaz Labs, яка використовує модель Stable Diffusion. Очевидно, що її варто використовувати для архівних відео, але там є матеріали й з сучасних відео. Тож я вирішила взяти AI відео і пропустити його через Project Starlite, щоб побачити, що вийде. І ви теж можете це зробити! Посилання на Topaz, як завжди, в описі.
Project Starlite поки що в бета-версії. У вас є лише три безкоштовні візуалізації на тиждень, щоб просто спробувати. Але, здається, вона буде частиною їхнього AI Video 6 пакету.
Якщо подивитись на порівняння “до і після”, то здається, що нічого й не сталось. Але якщо збільшити масштаб, то стає видно, як Starlite робить свою магію. Наприклад, при збільшенні до 527%, ви бачите, як покращилась текстура волосся, як краще виглядають очі та тон шкіри, чіткіше – губи. З одного боку, все виглядає добре, але покращення – доволі незначні. Є й деякі проблеми. Наприклад, на першому кадрі обличчя Джека чомусь трохи розмите. І в той момент, коли він повертає голову, все теж стає м’яким. Але як тільки він закінчує поворот голови, все стабілізується. Я не хочу критикувати, бо це ж бета-версія.
Повертаємось до прикладів “зображення у відео”, перш ніж перейти до робіт спільноти. Це було згенеровано взагалі без промптів. Мені було цікаво, як Wan 2.1 з цим впорається. Типовий паралаксний кадр, але рух вітру в одязі – просто чудовий. Чи все ідеально? Звісно ж, ні.
Беремо фото “піратської” Лари Крофт. І промпт “тягне лук”. І ми отримали ось це. Не так вже й погано. Є невелика десинхронізація в першу секунду, але це можна обрізати і отримаємо цілком пристойний вихід.
Переходимо на Krea.ai, де зараз можна безкоштовно генерувати відео за допомогою Wan 2.1. Не знаю, скільки триватиме цей безкоштовний банкет, тож поспішайте. Щоб генерувати в Wan 2.1, натисніть кнопку “Generate”, далі – “Video” і в кутку переконайтесь, що обрано Wan 2.1. Треба визнати, що генерація зараз займає багато часу.
Ось ще одне відео “зображення у відео”, яке ми, до речі, тестували в Sky Rails минулого тижня. Воно – ні те, ні се. З одного боку, мені багато чого подобається: рух камери в руках, трекінг. Гадаю, то був ліхтар, який вона тримає. Але він, звісно, зник. Ми втрачаємо її обличчя на частку секунди, але воно з’являється знову. Частота кадрів – теж доволі низька. Але те, що другорядний персонаж йде вперед разом з нею… тут є за що любити, і є за що сварити. Я б спробувала перегенерувати це відео ще кілька разів. Але Krea зараз генерує дуже довго. Але ж це безкоштовно!
Переходимо до робіт спільноти. Халед Аль-Рашид дарує нам… Я навіть боюся назвати це коротким фільмом чи трейлером. Це, скоріше, mood board. Дуже нагадує відеогру Ubisoft, в яку я б дійсно хотіла пограти. Все зроблено з використанням “зображення у відео”. Виглядає дуже гарно і захопливо. Особливо – цей останній кадр. Той хлопець виглядає так, ніби з ним буде важко розібратись.
Fauxfur показує нам трохи божевілля. І варто зазначити, що тут було використано модель 1B 480. Це доводить, що навіть з меншою моделлю можна отримати круті результати. Десятка від суддів! Але судять тут золотисті ретривери.
Cedu, яке, я думаю, я правильно вимовляю (моя японська – не в найкращому стані), дає нам цей анімований вихід. І я думаю, що в такому випадку 16 кадрів в секунду – не такий вже й великий мінус, бо анімація часто йде з меншою частотою кадрів. Все виглядає просто супер!
І наостанок – I Like Toasters показує нам це уявне творіння. Тут є cottagecore, є turtlecore. Але щоб cottage turtlecore – я ще не бачила.
І на завершення, швидко перестрибуємо в Luma Labs Dream Machine. Вони додали можливість додавати звук і звукові ефекти до ваших відео. Здається, вони використовують mm audio. Це – реально круто! Просто зайдіть у вкладку “Audio” і напишіть, що вам хочеться. Наприклад, “перестрілка”. Натискаємо “Create”. Звук генерується дуже швидко.
І це – круто! Мене завжди вражало, як добре модель вгадує час. Наприклад, вибух на задньому плані. Давайте послухаємо, як це звучить зі звуком. Чи це готово для Dolby Atmos? Звісно ж, ні. Але ми тільки починаємо!
Одна річ, з якою я бавлюсь, – це заходжу у вкладку “Audio” та в описі просто пишу “розмова” і дивлюсь, що вийде. Зазвичай, це якась нісенітниця. Але дуже смішна. Тож, хоча ви можете попросити музику і розмову, Dream Machine більше підходить для звукових ефектів. Але ви можете спробувати. Якщо ж ви залишите промпт пустим, то можете побачити привидів AI. А я ж люблю привидів. І тепер ми можемо їх почути! До речі, мені завжди було цікаво, як звучать ці ляльки? Виявляється, доволі мило. Можливо, це навіть вилікувало мою лялькофобію!
Можливо, це й не найбільш вражаюче оновлення AI відео, але я хочу нагадати, що, якби ми побачили це років 20 тому, то в нас би відпала щелепа. А сьогодні ми вже такі: “А, привидів AI згенерували, вони говорять нісенітницю. Та й таке”. Це змушує задуматись, де ми будемо через 20 місяців. Але це – вже зовсім інша історія. Дякую за увагу! З вами була Lila Hart.