Битва Титанів Штучного Інтелекту: Чи зможе новий чемпіон позбавити корону Google?

    Минулого тижня мій давній друг, ентузіаст технологічних новинок, заскочив на ранкову каву з виблискуючими очима. “Ліло”, – прошепотів він, немов ділився державною таємницею, – “твоя улюблена тема, відео від ШІ, вибухнула з новою силою. Готуйся, бо буде гаряче!” І, знаєте, він мав рацію. Світ генеративного відео знову перевернувся, і цього разу на арені з’явився потужний претендент, який кидає виклик самому королю.

    Забудьте про сон, адже технологічна гонка триває без вихідних. Alibaba, цей гігант з Піднебесної, знову нагадав про себе, випустивши WAN 2.5. Це вже не просто оновлення, а справжній землетрус у світі AI-відео. Чому? Бо ця нова модель не лише вміє генерувати відео зі звуком та діалогами, як у справжньому кіно, а й робить це так, що Google з їхнім Veo 3, схоже, починає нервово перевіряти власні напрацювання. Це як коли ти нарешті опанував борщ за бабусиним рецептом, а тут сусідка виставляє на стіл щось невловимо смачніше, і ти такий: “Зачекайте, як це?”

    Google, до речі, теж не спить. Вони не просто “вичавлюють банан”, як це було елегантно зазначено в першоджерелі, а впроваджують нові трюки у свою платформу Flow, додаючи функціонал, який ви, сподіваюся, вже встигли оцінити. А для тих, хто чекав на довший хронометраж, приготуйтеся: генерація відео тривалістю до хвилини стає реальністю. Це як чекати на весну після довгої зими, але замість перших пролісків – готові кінематографічні шедеври.

    Ми заглибимося в усі подробиці, розберемо перші тести, порівняємо можливості та спробуємо з’ясувати, де ж там ховаються перші постріли у бік Google. Готуйтеся, буде цікаво, пізнавально і, сподіваюся, з нашим звичним людським дотиком.


    WAN 2.5: Коли ШІ починає говорити (і думати!)

    А тепер давайте детальніше розглянемо цього нового гравця, WAN 2.5. Пам’ятаєте, як минулого тижня ми захоплювалися WAN Animate? Так от, WAN 2.5 з’явився буквально за кілька днів після нього, ніби запитуючи: “А чи бачили ви це?”. Це вже серйозно, це повноцінна нова відеомодель, і її головна фішка – генерація аудіо, включно з діалогами. Це робить її першим справжнім конкурентом Veo 3.

    Але тут є нюанс. Наразі ця модель не є відкритою. Це якби хтось розробив секретний рецепт борщу, але нікому не розкривав його. Втім, не поспішайте засмучуватися, бо далі у відео може з’явитися новина і щодо цього. Слідкуйте за руками!

    WAN 2.5 вже доступний на кількох платформах. Ми подивимося на деякі з них, але почнемо з “материнської” – WAN. Якщо ви перейдете за посиланням [посилання на WAN], ви побачите кілька варіантів доступу. Важливо: для WAN 2.5 ще недоступні такі круті функції, як “image to video” чи “text to video” – зараз це окремі налаштування. Але можна генерувати відео у форматі 1080p, 720p або 480p, а тривалість можна встановити на 5 або 10 секунд. Так, це на 2 секунди більше, ніж у Veo 3! Дрібниця, а приємно.

    Є ще опції для керування камерою: панорамування вліво/вправо, нахил вгору/вниз. Це як режисер, який дає вказівки оператору. І ще один момент: на WAN ви можете генерувати відео безкоштовно, але, зрозуміло, доведеться почекати. Або ж скористатися кредитами. Безкоштовний варіант – це як чекати своєї черги біля каси в супермаркеті в годину пік. З кредитами, звісно, швидше, але вартість варіюється від 10 до 30 кредитів за генерацію. Кажуть, це значно дешевше, ніж у Veo 3. Що ж, перевіримо.


    Перші тести: чи готовий WAN розмовляти?

    Гаразд, давайте не будемо зволікати й протестуємо, наскільки добре WAN 2.5 вміє генерувати відео. Почнемо з тексту в відео. Ось таке завдання: “Ця вся місцевість колись була одними дата-центрами. Мій батько та я гуляли тут щонеділі”. Короткий текст, але з певним присмаком майбутнього.

    І знаєте що? Результат вражає. По-перше, відео триває 11 секунд, хоча ми ставили ліміт 10. Це приємний бонус. По-друге, персонаж не просто проговорює текст, а ніби продовжує історію, ніби йому є що ще розказати. Це вже не просто відтворення тексту, це спроба створити наратив. Роздільна здатність – 1280×720, і кадри за секунду – 30. Це теж свого роду виклик загальноприйнятим стандартам, де більшість генераторів працює на 24 FPS.

    Тепер спробуємо щось більш романтичне: “Ми, можливо, є кодом, але цей момент відчувається реальним”. І що ми бачимо? Камера плавно обертається, фон залишається доволі стабільним, навіть машина, що проїжджає, виглядає доречно. Так, не все ідеально, і естетика може бути спірною, але загалом – дуже солідно.

    Але ж ми любимо випробування! Давайте спробуємо щось, що ближче до моєї, так би мовити, “похмурої” естетики. Уявіть: оновлена “Баффі – переможець вампірів”, але у стилі знайдених плівок (found footage). “Нам треба бути онлайн рівно о 8. Квитки розлітаються за дві секунди. Але мій інтернет глючить увесь день”. Здавалося б, просте завдання. Але результат? Це просто неймовірно! Модель чудово вловила атмосферу. Хоча, зізнаюся, був один момент: коли персонажі “завмирали”, мав звучати виск вовкулаки, а його не було. Ну, це якби ви готували борщ, і забули додати засмажку – смак не той. Але ж це легко виправити, додавши звук окремо.


    Між текстом і образом: коли алгоритм вигадує сюжети

    Не зупиняємось! Ось ще один тест з того ж “вампірського” сету: “Ти вибрав не ту могилу. Ти не знаєш, що наближається”. Власне, тут сам бій вийшов не зовсім таким, як очікувалося. Але дизайн вампіра – принаймні того, що намагається її “заколоти” – досить непоганий. Хоча, хто тут герой, а хто лиходій, залишається загадкою.

    І ще одна дрібниця: коли “героїчний вампір” промовляє свою репліку, губи не рухаються. Можливо, це “стандартний” стан для вампірів, але це помітно. Крім таких моментів, іноді трапляються дивні артефакти або випадкові звукові ефекти. А якщо попросити ще й фонову музику, то можна отримати справжній мюзикл. Ось, наприклад: “Ви не володієте цими ласощами”. І тут – бац! – музика, і виходить щось на кшталт “Кримінального чтива 70-х у стилі кунг-фу мюзиклу”. Звучить… інтригуюче, але не зовсім те, що було в планах.

    Перейдемо до “Image to Video”. Хто пам’ятає “Дівчину з вогнеметом”? Ну, вона тут знову, і каже: “Сьогодні трохи гаряче, але принаймні, це сухе тепло”. Результат хороший, але знову є артефакти в діалозі. І що дивно: після фрази дівчина просто починає хитати головою. Модель ніби не знає, що робити далі з персонажем. Але це можна обрізати.

    Ось що мене дійсно здивувало: інший тест з двома персонажами. “Я думаю, ми у фільмі про депресію”. “Я знаю, що ми у фільмі про депресію”. Спочатку були субтитри! Правильно написані субтитри! Це вам не приймати рішення за користувача. А на наступній спробі субтитрів вже не було. Але найцікавіше – це ледь помітна зміна фокусу між першим і другим персонажем під час їхніх реплік. Це так… по-дорослому.

    А тепер спробуємо додати щось нове в зображення. Уявіть: культисти намагаються викликати демона. “Ви справді думаєте, що це спрацює?” “Відкриймо браму. Призовимо того, хто спить унизу. Піднімись, темряво!” І ось тут виявляється, що голос дуже схожий на H. John Benjamin, відомого озвучкою “Арчера”. Таке співпадіння – це вже привід посміхнутися. А сам демон… ну, він там є. Не вражає дизайном, але контекстуально відповідає картинці. Це якби ви шукали інгредієнти для борщу, а знайшли один дивний, але потрібний.

    І ще один тест: нуарний детектив. Фатальна жінка входить до офісу. “Ти приватний детектив?” – питає вона. “А хто ти?” – відповідає він. На жаль, модель заплуталася і “віддала” репліку жінки детективу. Таке буває. Але! Цього разу жінка не “телепортувалася” через двері, як це часто буває в подібних моделях. І деталі в коридорі, за матовим склом, промальовуються дуже гарно. Це якби ви побачили на горищі старий прабабів комод, і він виявився ідеальним.

    І завершимо перший блок тестами на “пробіжку”. Уявіть собі Джейсона Вурхіза, який біжить: “Ось чому я зосереджуюсь на кардіо тренуваннях. Ти мене не наздоженеш”. Ну, біг виглядає… майже нормально. Є невелике “замикання” посередині, але загалом – непогано. Проблеми з доставкою реплік – це, як я розумію, давня “хвороба” WAN . Але є рішення – звукове редагування. Ми використовуємо старий кадр, завантажуємо аудіо з 11 Labs(це той, що озвучував мою історію про приреченість, і чудово впорався, хоча минулого разу це ледь не довело мене до божевілля!) – і отримуємо ось це: “О, хлопче, дозвольте розповісти вам історію про прокляття”. Так, ось це вже зовсім інша справа!


    Грайливі експерименти спільноти та відповідь Google

    А що там у спільноти? Один користувач, пан R, провів цікавий експеримент з аудіо до відео. Взяв просту намальовану фігурку-стикмен та відповідне аудіо. Результат, чесно кажучи, не ідеальний, але коли це видно, стає зрозуміло, чому це дивовижно. Модель мала “зрозуміти”, що чоловік у машині виходить, щоб сказати фразу, і що машина на задньому плані їде. І вона це зробила! Наче шмає той хитрий рецепт, але з малюнками.

    YouTube теж не пасе задніх. Канал AI Search опублікував відео, де компанія WAN 2.5 працює на платформі Higsfield. Результат – вражаючий. І так, WAN 2.5 доступний на Higsfield, де є й режим “без обмежень” (для тих, хто на платних підписках). Особливо цікаво, що на Higsfield можна використовувати їхні власні “пресети” руху камери. Будьте уважні: на момент запуску можуть бути збої, але сподіваюся, їх швидко виправлять.

    Також WAN 2.5 працює на платформі Krea. Там, кажуть, трохи повільніше, але це ж день запуску, API та сервери, мабуть, перевантажені. Щодо вартості, то на WAN це 20 доларів за преміум-план з 1200 кредитами. За генерацію – від 10 до 30 кредитів. Я найчастіше використовую 720p, 5-10 секунд, це близько 20 кредитів. Загалом, ціни доволі привабливі, а головне – значно нижчі, ніж у Veo 3.

    А тепер про найцікавіше: чи стане WAN 2.5 відкритим? Є чутки, що це лише “попередній перегляд”, і справжній реліз буде з відкритими “вагами”. Але це лише спекуляції. Будемо тримати кулаки!

    Загалом, WAN 2.5 – це не ідеальна модель, але вона дійсно солідна. І, що найважливіше, це перший серйозний виклик для Google у битві за корону AI-відео з діалогами.


    Google відповідає: Flow, MixBoard та майбутнє інтеграцій

    А тепер повернемося до Google. Вони явно не сплять. Два цікаві нововведення: оновлення платформи Flow і експеримент під назвою MixBoard.

    MixBoard – це безкоштовний експеримент від Google, який, зізнаюся, більше націлений на звичайних користувачів. Можна, наприклад, взяти купу фотографій птахів і наліпити їм “головні очі”. Але й для нас тут є щось цікаве. Наприклад, можна обрати купу персонажів, вказати місце, позу і отримати результат. Ось я взяв космічну локацію і попросив “більше локацій з цього космічного корабля”. Результат цікавий, хоча контроль над пропорціями зображення поки що обмежений. Це якби ви хотіли зробити борщ, але вам дали тільки один інгредієнт. Но, не біда – це безплатно.

    Flow Platform – ось де справжні новини. З’явився “Custom Prompt Expander”. Це, найімовірніше, для текстово-відео генерації. Дозволяє розширити ваш промпт, додавши деталі. Можна редагувати зображення за допомогою NanoBanana. Краще управління файлами: тепер є “Обране”. І головне: V2 закривається. Я, зізнаюся, V2 майже не використовував, але це кінець епохи.

    А тепер про “Prompt Expander” детальніше. Можна обрати готові пресети: “кінематографічний”, “нуар”, “бойова фігура” або створити свій. Я створив пресет “Viking”: “кінематографічний кадр з конунгом-вікінгом, знятий на IMAX”. Потім, коли генеруєш відео, обираєш цей пресет, і він автоматично додає всі необхідні інструкції.

    Тестуємо. “Конунг-вікінг виходить зі свого замку, готовий до битви з ордою загарбників”. Вибираємо пресет “Viking”, і ось що відбувається: система сама розширює запит, додаючи всі деталі з нашого пресету. Я вирішив витратити пару кредитів і запустив генерацію. Результат – два схожих кадри, але з різними пропорціями. Було б круто, якби можна було одразу вказати пропорції, Google!

    Але однієї функції я все ще чекаю: “ingredients to video”, коли можна змішати три зображення, щоб отримати одне. Зараз це перекидає на V2, а V2 скоро зникне. Тож, Google, коли ж “інгредієнти”?


    Довгоочікуваний фініш: хвилина відео – це реально!

    І ось ми підходимо до завершення. Я знаю, багато хто з вас чекав на можливість генерувати довші відео. Зазвичай це було 8-10 секунд. Але схоже, що хвилина відео – це не просто мрія, а найближче майбутнє.

    Компанія Dreamina готує нову модель, яка зможе створювати плавні, довгі кадри до 54 секунд! І це ще не все: можна буде використовувати до 10 ключових кадрів, щоб керувати процесом генерації. Звучить як справжній прорив! Казали також, що це буде дешевше.

    Мене особливо цікавить, як вони вирішили питання “плавних переходів та стабільного стилю”. Часто в таких довгих генераціях з’являються викривлення, коли картинка починає “плисти”. Сподіваюся, Dreamina знайшла спосіб це обійти. Бо якби це було так, ми могли б, нарешті, знімати свої власні “хвилинні Warner Bros. ролики”.

    Я обов’язково дізнаюся більше про цю модель і поділюся з вами. А поки що, тиждень видався божевільним, і я думаю, що попереду ще багато цікавого.


    Підсумки та заклик до дії: майбутнє генерації відео вже тут

    Отже, підсумовуючи все вищесказане, ми бачимо, що світ AI-відео розвивається з неймовірною швидкістю. Alibaba з WAN 2.5 кинув справжній виклик Google, представивши модель, яка генерує аудіо та діалоги, та ще й дешевшає процес. Google, у свою чергу, не спить: оновлення Flow, експерименти на MixBoard, і, сподіваємось, відповідь на виклик WAN 2.5. А Dreamina обіцяє нам справжню революцію – хвилини плавного відео, керованого з десяти ключових кадрів.

    Ми проходимо через захопливий етап, де можливості штучного інтелекту в галузі відео тільки починають розкриватися. Кожна нова модель, кожне оновлення – це крок до того, щоб зробити створення кіно доступнішим, швидшим і, можливо, навіть більш креативним.

    Що ж далі?

    1. Експериментуйте! Якщо ви ще не пробували WAN 2.5 або нові функції Google Flow – зробіть це. Відкрийте для себе нові можливості.
    2. Слідкуйте за оновленнями! Технології змінюються щодня. Підпишіться на наші статті та будьте в курсі.
    3. Діліться своїми роботами! Покажіть світові, що ви можете створити за допомогою цих інструментів. Спілкування та обмін досвідом – це те, що рухає нас вперед.

    Для мене особисто це неймовірно захопливий час для всіх, хто цікавиться технологіями та творчістю. Ми – свідки народження нової ери у створенні контенту. Тож нехай ваші ідеї будуть сміливими, а ваші відео – ще кращими! Йдемо далі!

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x