Wan 2.1: Новий Горизонт у роботі з AI Відео, Звуком та Емоціями

Wan 2. 1: Новий розумієте, Горизонт у Світі AI Відео, Звук та Емоції (огляд від Lila. Hart)

Сьогодні день прем’єри нової моделі AI відео, і я, чесно кажучи, в захваті! Ми поглянемо на Wan 2. 1 – абсолютно безкоштовну, з відкритим кодом, та ще й з платформою для безкоштовного тестування. Навіть якщо безкоштовний майданчик зникне, генерація відео з цією моделлю обіцяє бути цілком доступною. Отже, подивимось, чи стане Wan 2. 1 справжньою знахідкою.

А ще, ми крадькома зазирнемо на новий відео-апскейлер. Від Topaz Labs, який теж можна зараз спробувати безкоштовно. Перевіримо, як він справляється з AI відео. І готуйте навушники! Luma Labs додали аудіо до відео в Dream Machine. Може, це й не новинка, але дуже цікава фішка.

Почнемо з Wan 2. 1 від Alibaba, який нарешті вийшов. Щоб було ясно, ми вже згадували про анонс минулого тижня, коли він ще називався Wan X (можливо, Wanks). Мабуть, десь там вирішили, що з іксом – занадто ризиковано, і прибрали його. Хоча, як наприклад, на мене, Wanks запам’ятовувався краще!

В цілому, Wan 2. 1 виглядає дуже перспективно. Він вміє генерувати відео з тексту, зображень, і, на додачу, відео з відео. Модель обіцяє реалістичну фізику, що демонструють нам на прикладі, як би виглядала дитина Сідні Свіні та Скарлетт Йоганссон. Вони точно знають, що роблять! Також, модель демонструє свою кінематографічність. Це те, за що я критикувала початковий трейлер, але тут – все виглядає просто чудово.

Отже, хтось там точно не спить на роботі. І хоча функція “відео з відео” ще не вийшла, вона включатиме in-painting (можливість корегувати. Окремі частини кадру), тож відео з левом, що п’є каву, можна буде перетворити на ведмедя. Також обіцяють out-painting – розширення кадру з 9:16 до, наприклад, ширшого 16:9. І ще – можливість використовувати кілька зображень як референси, як в Cling або Pika.

Коротко про відкритий код: так, код і ваги тепер доступні для завантаження. Є дві моделі: 1. Зрозуміло, 3B та 14B. Обидві вміють генерувати відео з тексту та зображень. Модель 1. 3B вимагає всього 8 гігабайт відеопам’яті і генерує 5-секундний 480p кліп на 4090 приблизно за 4 хвилини. Це значний прогрес у порівнянні зі Sky Rails, який ми розглядали минулого тижня. Там на 5-секундне відео йшло чи не півтори години!

розумієте,

Модель 14B здатна видавати 720p. На жаль, немає інформації про те, скільки часу. Потрібно для генерації з цією моделлю на 4090. Думаю, значно більше. Тож, для 14B вам знадобиться потужніша машина.

Але нам пощастило, Wan 2. 1 з’являється буквально всюди бо я тестувала генерацію на Faall. ai, на Nim і на Krea. Почнемо з прикладів “текст у відео” на Faall. Відверто кажучи, ai. Так, сьогодні ми трохи пострибаємо по платформах, щось на зразок. Вибачте, але сьогодні в мене такий настрій. Перевіримо нашого героя в синьому діловому костюмі, якого. Ми знаєте, востаннє бачили, коли він прокидався на вокзалі, щось на зразок.

Схоже, він, як і ми, не знає, де він. Я хотіла перевірити, як Wan 2. 1 справляється з генерацією тексту. Як на мене, він впорався та 5-секундний вихід у 720p виглядає дуже добре. Faall явно використовує модель 14B, приблизно так. Зрозуміло, все, від фону до образу чоловіка, виглядає фантастично. Особливо мені сподобався його зітх і питання в очах: “Де я? “. Просто чудово!

Інший приклад “текст у відео” – хлопець, який або йде на екшн-сцену. В ролі найманого вбивці №3, або готується запалювати на сцені з Black Eyed Peas. Не знаю, що з цього проте кілька речей, на які я звернула увагу. Дуже сподобався рух камери і те, як іде хлопець. Цікаво, що генерація тривала всього 3 секунди замість очікуваних 5. Можливо, десь є проблеми з руками, текст на задньому плані виглядає нерозбірливим, хоча я його й не просила. Справа в тому, що а ще мені сподобалась синя вантажівка на задньому плані, яка надає відео відчуття глибини. Єдиний нюанс: трохи стрибає кадр. Але в мене є рішення, про яке я розповім пізніше.

Коротко про ціни на Faall тому ai. Кожна генерація – 0. 4 долари. Це значно менше, ніж 50 центів за секунду у V2, який ми розглядали минулого разу. З естетичної точки зору, Wan 2. 1 – на рівні з V2, а можливо, навіть трохи краще за V2 Turbo в YouTube Shorts. Але, як я вже казала, смаки у всіх різні.

Перестрибуємо на Nim. video. Знову ж таки, вибачте, сьогодні все трохи хаотично. Зліва – кадр з V2 YouTube Shorts Turbo, справа – вихід Wan 2. 1 і промпт – той самий. Варто зазначити, що генерація відбувається у 1280×720 з 16 кадрами в секунду. Класно, що на Nim є безкоштовний апскейлер. Можна збільшити роздільну здатність в 2 або навіть 4 рази, а також подвоїти частоту кадрів. Я подвоїла роздільну здатність і залишила подвійну частоту кадрів. Після невеликої перерви (зізнаюсь, хвилин 20) ми отримали генерацію у 2048×1152 з 32 кадрами в секунду.

Ще один момент про безкоштовний апскейлер. Він обмежує вас 150 кадрами, тож, якщо у вас відео з 30 кадрами в секунду, то багато з нього не вийде. Але для Wan 2. 1 це – ідеальний варіант.

Переходимо до тестів “зображення у відео”. Це – ваш старий друг Джек Бертон з. Як я люблю казати, найкращого фільму всіх часів. Я б не назвала його поганим, але. У тому повороті голови він стає все більше схожим на якогось типового актора з 80-х, десь так. Насправді, але мені здалось, що цей вихід стане гарною можливістю зазирнути в Topaz Labs і спробувати Project Starlite.

Project Starlite – це нова програма для відновлення і очищення відео від Topaz Labs, яка використовує модель Stable Diffusion, щось на зразок. Очевидно, що її варто використовувати для архівних відео, але там є матеріали й з сучасних відео. Тож я вирішила припустимо, взяти AI відео і пропустити його через Project Starlite, щоб побачити, що вийде. І ви теж можете це зробити тому посилання на Topaz, як завжди, в описі.

Project Starlite поки що в бета-версії. У вас є лише три безкоштовні візуалізації на тиждень, щоб просто спробувати. Але, здається, вона буде частиною їхнього AI Video 6 пакету.

Якщо подивитись на порівняння “до і після”, то здається, що нічого й не сталось. Але якщо збільшити масштаб, то стає видно, як Starlite робить свою магію. Наприклад, при збільшенні до 527%, ви бачите, як покращилась текстура. Волосся, як краще виглядають очі та тон шкіри, чіткіше – губи. Дивно, з одного боку, все виглядає добре, але покращення – доволі незначні. Є й деякі проблеми. Наприклад, на першому кадрі обличчя Джека чомусь трохи розмите. І в той момент, коли він повертає голову, все теж стає м’яким. Але наприклад, як тільки він закінчує поворот голови, все стабілізується. Я не хочу критикувати, бо це ж бета-версія.

Повертаємось до прикладів “зображення у відео”, перш ніж перейти до робіт спільноти. Це було згенеровано взагалі без промптів. Очевидно, мені було цікаво, як Wan 2. 1 з цим впорається. Типовий паралаксний кадр, але розумієте, рух вітру в одязі – просто чудовий. Фактично, чи все ідеально? Звісно ж, ні. Відверто кажучи,

Беремо фото “піратської” Лари Крофт. І промпт “тягне лук” і і ми отримали ось це. Не так вже й погано. Є невелика десинхронізація в першу секунду, але це можна обрізати і отримаємо цілком пристойний вихід. Щоб було ясно,

Переходимо на Krea. ai, де зараз можна безкоштовно генерувати відео за допомогою Wan 2. 1. Не знаю, скільки триватиме цей безкоштовний банкет, тож поспішайте. Щоб генерувати в Wan 2. 1, натисніть кнопку “Generate”, далі – “Video” і в кутку переконайтесь, що обрано Wan 2. 1. Треба визнати, що генерація зараз займає багато часу.

Ось ще одне відео “зображення у відео”, яке. Ми, до речі, тестували в Sky Rails минулого тижня. Воно розумієте, – ні те, ні се. З одного боку, мені багато чого подобається: рух камери в руках, трекінг. Гадаю, то був ліхтар, який вона тримає. Але він, звісно, зник. Ми втрачаємо її обличчя на частку секунди, але воно з’являється знову. Частота кадрів – теж доволі низька. Але те, що другорядний персонаж йде вперед разом з нею. Тут є за що любити, і є за що сварити. Я б спробувала перегенерувати це відео ще кілька разів. Але Krea зараз генерує дуже довго бо але ж це безкоштовно!

Переходимо до робіт спільноти тому халед Аль-Рашид дарує нам. Я навіть боюся назвати це коротким фільмом чи трейлером. Значить, Це, скоріше, mood board. Дуже нагадує відеогру Ubisoft, в яку я б дійсно хотіла пограти. Все зроблено з використанням “зображення у відео”. Виглядає дуже гарно і захопливо. Особливо – цей останній кадр. Той хлопець виглядає так, ніби з ним буде важко розібратись.

Fauxfur начебто, показує нам трохи божевілля, десь так. І варто зазначити, що тут було використано модель 1B 480. Це доводить, що навіть з меншою моделлю можна отримати круті результати. Десятка від суддів проте але судять тут золотисті ретривери.

Cedu, яке, я думаю, я правильно вимовляю (моя японська – не в найкращому стані), дає нам цей анімований вихід. І я думаю, що в такому випадку 16 кадрів в секунду – не такий вже й великий мінус, бо анімація часто йде з меншою частотою кадрів. Все виглядає просто супер!

І наостанок – наприклад, I Like Toasters показує нам це уявне творіння. Тут є cottagecore, є turtlecore. Але щоб cottage turtlecore – я ще не бачила.

І швидко перестрибуємо в Luma Labs Dream Machine. Більше того, вони додали можливість додавати звук і звукові ефекти до ваших відео. Здається, вони використовують mm audio. Це – реально круто! Просто зайдіть у вкладку “Audio” і напишіть, що вам хочеться. Наприклад, “перестрілка”. Цікаво, натискаємо “Create” хоча звук генерується дуже швидко.

І це – круто! Мене завжди вражало, як добре модель вгадує час. Наприклад, вибух на задньому плані хоча давайте послухаємо, як це звучить зі звуком. Чи це готово для Dolby Atmos, в такому дусі. Звісно ж, ні. Але ми тільки починаємо!

Одна річ, з якою я бавлюсь, – це заходжу у вкладку “Audio” та в описі просто пишу “розмова” і дивлюсь, що вийде. Зазвичай, це якась нісенітниця. Більше того, але дуже смішна. Дивно, тож, хоча ви можете попросити музику і розмову, Dream Machine більше підходить для звукових ефектів. Але ви можете спробувати. Якщо ж ви залишите промпт пустим, то можете побачити привидів AI. А я ж люблю привидів. І тепер ми можемо їх почути! До речі, мені завжди було цікаво, як звучать ці ляльки? Відверто кажучи, виявляється, доволі мило. Можливо, це навіть вилікувало мою лялькофобію!

Можливо, це й не найбільш вражаюче оновлення AI відео, але я хочу нагадати. Що, якби ми побачили це років 20 тому, то в нас би відпала щелепа. А сьогодні ми вже такі: “А, привидів AI згенерували, вони говорять нісенітницю. Та й таке”. Це змушує задуматись, де ми будемо через 20 місяців. Але це – вже зовсім інша історія та дякую за увагу! З вами була Lila Hart.

Docling: Як ваш кіт може допомогти ШІ зрозуміти PDF

Огляд AI-Новин: Від GLM 4.5 до редагування відео – головні події тижня

Від AI-автоматизації до Micro-SaaS: як перетворити послуги на постійний дохід

Wan 2.1: Новий Горизонт у роботі з AI Відео, Звуком та Емоціями

Docling: Як ваш кіт може допомогти ШІ зрозуміти PDF

Огляд AI-Новин: Від GLM 4.5 до редагування відео – головні події тижня

Від AI-автоматизації до Micro-SaaS: як перетворити послуги на постійний дохід

Docling: Як ваш кіт може допомогти ШІ зрозуміти PDF

Огляд AI-Новин: Від GLM 4.5 до редагування відео – головні події тижня

Від AI-автоматизації до Micro-SaaS: як перетворити послуги на постійний дохід

Producer AI: Нова ера музики чи технологічний експеримент?

Розсіяний штучний інтелект: як контекстна інженерія робить AI справді розумним

Perplexity Comet: Ваш новий AI-провідник в інтернеті

Клод 4: ШІ, який мислить, відчуває та ставить під сумнів реальність

Від нуля до майстерності: Подорож у світ автоматизації з N8N

Популярні

Клод 4: ШІ, який мислить, відчуває та ставить під сумнів реальність

Game Over для RL? Розбираємо скандальне дослідження про AI та міркування

Midjourney V7: Огляд, тести та перспективи. Ера персоналізації та виклик Flux’у?

Підпишіться

Wan 2.1: Новий Горизонт у роботі з AI Відео, Звуком та Емоціями

Wan 2. 1: Новий розумієте, Горизонт у Світі AI Відео, Звук та Емоції (огляд від Lila. Hart)

Пов’язані повідомлення

Підпишіться на оновлення