Битва титанів: як ШІ-відеомоделі наприкінці 2025 року намагалися зрозуміти нас (і хто така кальмарка)
Відчували колись, як технології розвиваються швидше, ніж ви встигаєте моргнути? От і я. Минулого тижня мій друг, який уже кілька років у світі ШІ, сказав: “Ліло, ти навіть не уявляєш, наскільки далеко зайшло створення відео за допомогою штучного інтелекту. Це вже не просто дивні картинки, а щось… живе”. Його слова змусили мене задуматись. А потім мені до рук потрапило відео, що стало справжньою подорожжю в майбутнє – або, принаймні, в те, яким його бачать розробники найсучасніших ШІ-відеомоделей.
Уявіть: кінець 2025 року. На арені чотири головні претенденти, які обіцяють перетворити ваші найсміливіші ідеї на відео: Minimax із їхнім Hailuo 2.3, Google з VEO 3.1, загадкова Sora 2 і, звісно, LTX2, що обіцяє здійснити прорив у світі open-source. Ми їх тестуватимемо, ніби доктор Франкенштейн, який намагається оживити своїх створінь. І повірте, деякі з них виявилися справжніми монстрами… не завжди в хорошому сенсі.
Це буде не просто порівняння. Це історія про те, як машини вчаться бачити світ, чути його і, сподіваюся, розуміти. Готові? Тоді пристебніть паски, адже ми занурюємося у вир цифрового кінематографу!
Частина 1: Кальмар-K-pop: перша зустріч із невідомим
Перше завдання, яке ми поставили перед нашими героями, звучало, м’яко кажучи, дивно: “Одинокий танцюрист виконує інтерпретативний K-pop танець у стилі життя кальмара, слайдова камера, мала глибина різкості”. Звучить як сон розробника, чи не так? Але саме такі, здавалося б, абсурдні запити, найкраще показують, на що здатні ці моделі.
Google VEO 3.1 вийшов першим. І що я вам скажу? Танцюрист був, K-pop – так, а ось “життя кальмара”… ну, він одягнув кумедну куртку з щупальцями, яка, до речі, не була в запиті! Це було креативно. Щупальця рухалися якось… реалістично. Але сам танець більше нагадував хіп-хоп. І тут сталася перша біда: він робить обертання, і його спина стає обличчям. Анатомія, друзі, це така штука, яку ШІ поки що не дуже добре розуміє.
Далі Hailuo AI 2.3. Пам’ятаєте, у нього немає звуку? Це як розповідати анекдот без кінцівки. Але сам танець був справді інтерпретативним. Дівчина рухалася, волосся майоріло… все було добре, поки вона не зробила різкий рух. І тут – привіт, Франкенштейн! Її спина знову стала обличчям. Це виглядало… моторошно. Наче хтось намагався зшити ляльку з різних шматків.
А от Sora 2 показала себе краще. Інтерпретативність була, K-pop – так. Хоча, знову ж таки, “кальмар” – це було лише в уяві. Але головне – жодного морфінгу! Хоча деталізація була не такою крутою, як у Hailuo.
І нарешті, LTX2. О, боже. З першого кадру було зрозуміло, що це буде епічно. Танцювальний рух, який жодна людина не зможе повторити. Він намагався рухатися, але виглядало це як боротьба з власним тілом. І звук… це був більше схожий на скрегіт, ніж на музику.
Цікаво знати: Чи знали ви, що перші кроки у створенні відео за допомогою ШІ робилися ще в 2014 році? З того часу прогрес був просто феноменальним!
Висновок першого тесту: Перемогу здобув VEO 3.1. Він був найближчим до запиту, хоч і з анатомічними помилками. Sora 2 – на другому місці, Hailuo 2.3 – третій (кращий танець, але більше помилок), а LTX2 – останній. Ну, принаймні, він намагався.
Частина 2: Лимон проти Банана: фруктова битва в стилі аніме
Друге завдання – фруктова дуель у стилі аніме. Лимон проти банана. Три чисті удари, розмиті кадри. Цього разу ми дали моделям референсне зображення, щоб спростити їм життя.
VEO 3.1 знову був першим. Він показав анімованих персонажів, схожих на героїв Dragon Ball Z (але не зовсім фрукти). Бій виглядав круто, але це було зовсім не те, що ми просили. Фруктові герої? Ні, дякую.
Hailuo 2.3 зробив щось… миле. Лимон проти чорниці. Це було не так аніме, як радше мультяшне, але хоча б відповідало запиту! Герої були схожі на фрукти, і вони якимось чином билися. Мені сподобалася сцена, де вони схопили один одного і почали крутитися.
Sora 2 показала себе непогано. Персонажі були анімованими, кольори правильні, хоча не було очевидно, що це лимон і чорниця. Були якісь артефакти, але загалом це було близько до мети.
LTX2 знову здивував. Це було щось на кшталт “лимон чи чорниця? Хто знає?”. Незрозуміле, незавершене. Навіть не схоже на людей, не кажучи вже про фрукти.
Не робіть того, що я колись робила: Не намагайтеся пояснити ШІ, що таке “гарбуз” за допомогою картинки гарбуза. Він може почати генерувати замки з гарбузів. Серйозно.
Висновок другого тесту: Перемогла Sora 2. Вона найближче передала суть запиту, хоча й не була ідеальною. Hailuo 2.3 – на другому місці за креативність. VEO 3.1 – третій, бо взагалі проігнорував тему фруктів. LTX2 – знову в кінці.
Частина 3: Жахи в полі: містика на фермі
Наступний тест – кінематографічна сцена в сільській місцевості під час шторму. Старий чоловік у старому червоному пікапі. Дощ на лобовому склі. Ззовні, біля водійського вікна, з’являється спотворена фігура лимонного дерева. Цікаво, чи вони це зрозуміють?
VEO 3.1 почав добре. Дощ, чоловік, пікап. Але коли почала з’являтися “істота”, вона почала глючити, переміщаючись з лобового скла на сам пікап. Це було нереалістично. Хоча обличчя чоловіка виглядало нажаханим, його очі не звужувалися, як ми просили.
Hailuo 2.3 показав себе краще. Істота відбивалася на склі, але не переміщалася на авто. Чоловік виглядав наляканим, хоч і робив якісь дивні рухи губами. А в одному з наступних тестів він навіть примружився! Істота зі щупальцями на пальцях – це було моторошно, але, принаймні, це був прогрес.
Sora 2 відмовилася генерувати відео, бо в нас була людина на референсі. Це трохи розчаровує. Але коли ми спробували без картинки, вийшло щось… дивне. Чоловік не любив лимони, а істота була десь там. Не зовсім те.
LTX2, хоч і намагався, але знову все зіпсував. Істота на склі з’являлася, але потім зникала. Чоловік виглядав нудьгуючим, а не нажаханим.
Висновок третього тесту: Перемогла Hailuo 2.3. Вона найкраще впоралася з відображеннями й акторською грою. VEO 3.1 – на другому місці, але з проблемами відображень. LTX2 – на третьому, а Sora 2 – в кінці, бо не могла використовувати референс.
Частина 4: Кроки в майбутнє: продукти та камери
Тепер переходимо до продуктів. Нові крокси MVPX лимонного кольору. Потрібне 360-градусне відображення, текст “Limited edition MVPX Crocs” зверху.
VEO 3.1 знову почав добре. Текст, відображення, обертання… але потім почав “мушити” і перекручувати крокси. Текст збивався, логотипи плуталися.
Hailuo 2.3 показав себе краще. Обертання не було повністю 360-градусним, але крокси виглядали добре. Текст був правильним. Щоправда, логотипи на задній частині взуття були якісь “галюцинації”.
Sora 2 теж показала хороші результати. Текст, брендинг – усе було майже правильно, хоча й трохи розмите. Але головне – був звук!
Цікаво знати: Чому ШІ так любить “мушити” контент? Це як коли ви намагаєтеся запам’ятати сон, і деталі розпливаються. ШІ, відтворюючи реальність, іноді “забуває”, як правильно її поєднати.
Висновок четвертого тесту: Тут складно виділити одного переможця. Hailuo 2.3 і Sora 2 були майже однаково хороші. Hailuo – краща якість, але без звуку. Sora 2 – є звук, але якість трохи гірша.
Далі – керування камерою. Самотній уцілілий іде до старої парової машини в джунглях. Камера: слідуй, наближай, віддаляйся.
VEO 3.1 знову показав, що вміє додавати непотрібні деталі, як-от дерева, що ростуть прямо перед камерою. Але він точно виконував команди камери.
Hailuo 2.3 зосередився на потязі, а не на персонажі. Але він давав більше контролю над камерою, і можна було створювати дивовижні кадри.
Sora 2 знову відмовилася, бо є людина. Але якби ми попросили її без картинки… вийшло б непогано, але з невідповідністю деталей.
LTX2 знову нас підвів. Намагався, але вийшло щось нечитабельне.
Висновок п’ятого тесту: Hailuo 2.3 – без сумніву, переможець. Вона дала найбільше контролю і найкращі результати. VEO 3.1 – другий, якщо потрібен звук. Sora 2 – третя. LTX2 – знову останній.
Частина 5: Кіберпанк-герой: битва за долю
Останній тест – для мене! Я – герой майбутнього, що залазить на хмарочос у кіберпанк-місті. Дощ, стрес, секретна місія.
VEO 3.1 зробив так, що я залазив то вгору, то вниз. Звук був, але загалом не дуже кінематографічно.
Hailuo 2.3 – це було ближче. Я виглядав наляканим, тіні, відблиски на вікнах – все було круто. Хоча без звуку, звісно.
LTX2 – це було більше схоже на сходи, ніж на скелелазіння. Але для відкритих моделей – це вже непогано.
Sora 2, знову ж таки, не дозволила мені використовувати референс. Але вони зробили “камео” – відео з голосом, схожим на мій. Це було цікаво, але не завжди точно.
Висновок останнього тесту: Hailuo 2.3 – найкраща якість і кінематографічність. VEO 3.1 – якщо потрібен звук і референс. Sora 2 – якщо хочете “камео” і звук, але без гарантії схожості. LTX2 – для експериментів.
Що далі? Майбутнє вже тут!
Підсумовуючи все вищесказане, можна сказати одне: ШІ-відео стало неймовірно потужним інструментом. Кожна модель має свої сильні та слабкі сторони. Hailuo 2.3 дивує якістю, VEO 3.1 – звуком і деякими функціями, Sora 2 – креативністю і “камео”, а LTX2 – потенціалом для open-source.
У результаті:
- Продукти та реклама: Hailuo 2.3 – мій вибір.
- Сюжети та персонажі: Тут вибір складніший. Sora 2, якщо готові працювати з її обмеженнями, або комбінація Hailuo 2.3 і VEO 3.1.
- Загальна якість та контроль: Hailuo 2.3 і VEO 3.1 – лідери.
- LTX2: Поки що для експериментів, але якщо випустять open-source версію – це може бути революція.
Ми спостерігаємо чудовий розвиток. Технології змінюються щодня. Те, що здавалося неможливим ще рік тому, сьогодні – реальність. Це захоплива подорож, і я рада, що ви пройшли її разом зі мною.
Що далі? Спробуйте самі! Почніть з простих запитів, експериментуйте, комбінуйте. Не бійтеся помилятися – саме так народжуються найкращі творіння. І пам’ятайте: майбутнє вже не за горами. Воно створюється прямо зараз, завдяки вам і цим неймовірним інструментам.
А поки що – до нових зустрічей у світі технологій! І хай ваші ШІ-відео будуть такими ж захопливими, як історії, які ми розповідаємо.







