Подорож у глибини штучного інтелекту: огляд інструментів для створення відео, від Pika до Sora
Штучний інтелект (ШІ) увірвався в індустрію відео, і з кожним днем з’являються нові інструменти, що обіцяють революцію у створенні контенту. Від генерації мемів до створення цілих фільмів, можливості ШІ здаються безмежними. Але як розібратися в цьому хаосі новинок і зрозуміти, які інструменти дійсно варті уваги?
Саме цим питанням задалися Мет Вольф і Нейтан Л. у своєму подкасті “Next Wave”, запросивши у гості Тіма з YouTube-каналу “Theoretically Media”, справжнього експерта з ШІ-відео. Разом вони поринули у світ Pika, Sora, Veo, Luma та інших інструментів, щоб розставити їх по поличках і визначити, хто є хто на цій арені.
Pika: Король мемів чи щось більше?
Розпочали з Pika, інструменту, який, на думку Мета, найбільше сяє у створенні мемів. Здатність “розрізати тортик”, “стиснути” або “підірвати” об’єкти робить Pika ідеальним для швидких і веселих відео в соціальних мережах.
Тім підтверджує, що Pika, здається, рухається в напрямку соціальних інструментів, що дозволяють “штампувати” особисті фотографії та об’єкти у відео. Однак він зауважує, що це більше схоже на використання шаблонів.
Мет ділиться своїм досвідом використання нових функцій Pika, наприклад, додавання власного обличчя у відео. На жаль, результати були “фанковими”, і йому знадобилося багато спроб, щоб отримати те, що він хотів.
Незважаючи на це, Тім вважає Pika “OG” – одним з перших великих гравців на ринку ШІ-відео, поряд з Runway. Він бачить корисність Pika у створенні мемів і кумедних вставок для відео.
В результаті, експерти розмістили Pika на рівні B, визнаючи його корисність для мемів, але сумніваючись у його практичному застосуванні для більш серйозних проєктів.
Hot Shot: Чи вартий він своїх грошей?
Наступним на черзі став Hot Shot, який Мет без вагань відніс до рівня D. Він був розчарований результатами, які генерував цей інструмент, особливо враховуючи його високу ціну – 99 доларів на місяць.
Тім погоджується з Метом, зауважуючи зернистість і непослідовність у відео, створених Hot Shot. Він також критикує функцію заміни обличчя, яка, за його словами, завжди робила його обличчя занадто червоним.
Тім демонструє кілька згенерованих ним відео, включаючи “мавпу на скейтборді” (а не на роликових ковзанах), “квіти, що розпускаються з танучого снігу” (які зовсім не схожі на квіти), і “астронавта, що ставить прапор на фіолетовій планеті” (де прапор просто “плаває” перед ним).
Він також ділиться прикладом невдалої спроби заміни обличчя, де його обличчя виглядає “не дуже привабливо”. В цілому, Тім не зміг отримати багато корисного від Hot Shot.
Зважаючи на негативний досвід обох експертів, Hot Shot беззастережно отримав рівень D.
Kling: Прихований діамант з Китаю?
Мет зізнається, що не має великого досвіду роботи з Kling, але знає, що багато хто хвалить цей інструмент. Він просить Тіма поділитися своїми враженнями.
Тім вважає Kling одним з найкращих китайських інструментів для ШІ-генерації відео. Він розповідає про свій короткометражний фільм “Мертве море”, створений повністю за допомогою Kling 1.0.
Тім демонструє згенероване відео з людиною, що розповідає історію про привидів. Він звертає увагу на деталізацію очей і вираз обличчя, які виглядають дуже реалістично.
Він також показує абстрактний експеримент, де він просто попросив ШІ згенерувати “креативність”. Результат вийшов дивним, але цікавим.
Порівнюючи Kling з Hot Shot, Тім зауважує, що Kling набагато краще передає схожість з обличчям реальної людини.
Підсумовуючи, Тім розміщує Kling у верхній частині рейтингу, відзначаючи його вражаючу якість і можливості.
Veo: Чи гідний він титулу S-Tier?
На думку Тіма, Veo заслуговує на найвищий рівень – S-Tier. Однією з особливостей Veo є те, що він генерує чотири відео за кожним запитом, дозволяючи користувачеві вибрати найкращий варіант.
Мет погоджується, що Veo дійсно вражає. Тім демонструє кілька згенерованих ним відео, включаючи “носорога, що йде”, “мавп на роликових ковзанах” і “вид з кабіни винищувача”.
Тім розповідає, як показував ці відео своєму синові, який був вражений тим, наскільки вони реалістичні. Він також ділиться невдалим досвідом генерації відео з людиною, яка грає зі своїм собакою на фоні дельфінів.
Мет звертає увагу на те, що Veo краще генерує відео з текстових запитів, ніж з зображень. Тім підтверджує, що Veo використовує власну систему генерації зображень, Imagen 3, для створення відео з зображень.
Обговорюючи зручність використання Veo, Тім зауважує, що це все ще бета-продукт, без бібліотеки згенерованих відео і можливості завантажувати власні зображення.
Мет сумнівається, чи зможе Google перетворити чудову технологію Veo на зручний для користувача продукт. Тим не згоден, вважаючи, що Veo має великий потенціал і, можливо, буде інтегрований з YouTube.
Незважаючи на деякі недоліки, експерти все ж вирішили залишити Veo на рівні S-Tier, відзначаючи його виняткову якість генерації відео.
Sora: Розчарування чи прихований потенціал?
Переходячи до Sora, Мет зауважує, що те, що ми маємо зараз, – це Sora Turbo, яка генерує 20-секундні відео з додатковою інтерполяцією кадрів. Однак він згадує, що демонстрації Sora, які ми бачили дев’ять місяців тому, виглядали набагато краще.
Тім вважає, що Sora отримала “вологий пук” від аудиторії, яка не була в захваті від результатів. Однак він вважає, що в Sora є потенціал, особливо у функціях “відео до відео”, “ремікс” і “змішування”.
Мет ділиться своїм досвідом використання Sora, зауважуючи, що він не отримав нічого, що б його дійсно вразило. Він показує згенеровану ним “мавпу на роликових ковзанах”, яка, на його думку, значно поступається аналогічному відео, створеному за допомогою Veo.
Він розповідає, що Sora потребує більш детальних запитів для отримання хороших результатів. Він також ділиться прикладом, як Sora замінила зображення для відео, згенерованого на основі зразка у вигляді прев’ю для YouTube.
Тім підкреслює, що користувачам доведеться змиритися з тим, що ШІ стане “режисером” і “постановчою групою”, а вони будуть виконувати роль “продюсера” або “письменника”.
Мет звертає увагу на те, що Sora Turbo відчувається як поспішно випущений продукт, можливо, через тиск громадськості. Тім зауважує, що інтерфейс Sora виглядає дуже круто, нагадуючи Midjourney.
В цілому, експерти зійшлися на тому, що Sora поки не дотягує до рівня S-Tier. Мет вважає, що Sora зараз знаходиться на вершині рівня A, відзначаючи її крутий інтерфейс і функцію розкадровки.
Minimax: Улюблений інструмент спільноти
Тім з ентузіазмом розповідає про Minimax, називаючи його поточним фаворитом публіки. Він стверджує, що Minimax заслуговує на S-Tier.
Мет здивований, оскільки, на його думку, Veo виглядає набагато краще, ніж Minimax. Тім пояснює, що Minimax дає користувачам більше контролю і дозволяє використовувати зовнішні зображення.
Тім розповідає про свої експерименти з Minimax, показуючи згенеровані ним відео з вікінгами та сцени з фільму про найманого вбивцю.
Він підкреслює, що Minimax чудово розуміє, що саме потрібно користувачеві, і часто генерує хороші результати навіть без запиту.
Тім демонструє приклади відео, де Minimax успішно генерує потрібні результати, навіть коли він просто вказує, що є місто і потрібна дія.
Мет погоджується, що приклади на сайті Minimax виглядають дуже вражаюче. Тім підтверджує, що враження від Minimax здебільшого базуються саме на управлінні та контролі.
В результаті, Minimax заслужено отримав місце у верхній частині S-Tier, поруч з Veo.
Nvidia: Більше, ніж просто генератор відео
Обговорюючи Nvidia, Мет згадує про спонсорську підтримку від компаній. Nvidia виділяється тим, що може генерувати цілі відеоролики на основі концепції, подібно до LTX Studio.
Однак Мет вважає, що найкраще Nvidia проявляє себе у пошуку стокових відео. Він стверджує, що функція пошуку стокових відео набагато корисніша, ніж функція генерації відео.
Тім ділиться своїм досвідом використання Nvidia для створення “Посібника з виживання зомбі”, використовуючи стокові відео та згенерований сценарій.
Мет зауважує, що Nvidia може писати історії, озвучувати їх і використовувати ваш голос у відео. Він вважає, що Nvidia заслуговує на рівень B або C з точки зору генерації відео, але функція пошуку стокових відео піднімає її рейтинг.
В цілому, Nvidia отримала місце у нижній частині рівня B, ближче до C.
LTX: Відкритий код на вершині?
Тім робить заяву, що викличе суперечки, – він розміщує LTX на рівні S-Tier. Він аргументує це тим, що LTX є єдиною компанією, яка відкрила вихідний код для своєї моделі генерації відео.
Мет сумнівається, чи зможе LTX змагатися з такими гігантами, як Sora і Microsoft, з точки зору обчислювальних потужностей і даних для навчання. Він вважає, що LTX слід оцінювати на основі її поточної продуктивності.
Тім зауважує, що відеомодель LTX виглядає набагато краще, ніж раніше, і що компанія додала Flux як генератор зображень. Він також розповідає про функцію керування виразом обличчя.
Тім підкреслює, що LTX намагається поєднати всі новітні технології, але це не завжди вдається легко.
Мет згадує про LTX Studio, яка може генерувати цілі фільми на основі простих запитів. Він також зауважує, що люди часто розчаровуються, коли LTX не відповідає їхнім завищеним очікуванням.
В результаті обговорення, LTX отримав рівень A, завдяки відкритому вихідному коду та унікальним функціям.
Luma Dream Machine: Перехід між реальністю та мрією
Тім позитивно відгукується про покоління, які створює Luma Dream Machine, але вважає їх дещо гіршими, ніж Veo або Minimax. Він додає, що нова модель зображень Luma виглядає дуже добре.
Він переконаний, що в Luma великий потенціал, оскільки її API використовується всюди. Завдяки новій моделі зображень, у користувачів тепер є змога “розмовляти” з ШІ.
Тім показує створене ним відео, скомбіноване з зображення його та інших друзів, де вони танцюють. Також він демонструє, як створював початкові прев’ю для відео завдяки Luma.
За допомогою Luma була проведена демонстрація створення вступної частини до серіалу “Гра престолів”, використовуючи лише ШІ. Результат був схожий на панораму до кабінету короля з відблисками і переливанням світла.
Мет зізнається, що йому дуже подобається функція переходу між двома різними зображеннями і вважає ії зручною.
Враховуючи усі коментарії, Luma отримала рейтинг А.
Runway: OG все ще в грі?
Безумовно, Runway – безумовний OG в колі генераторів Al-відео. Саме вони кинули виклик ще в ті часи, коли 3 секунди з відео здавались дивом!
Можливою заперекою є те, чи варто довіряти найвищому щаблю, попри чималий спадок.
Генеративна модель Gen-3 чудово працює і розвивається вражаючими темпами. Ця модель має велику кількість інструментів для редагування.
Свого часу, один із засновників був серед OG команди, що створили революцію Stable Diffusion. Саме завдяки цьому вдалось сконцентрувати чималі зусилля на зручному користуванні.
“Нещодавно додали функцію керування ракурсом камери на відео. Можна також горизонтально, вертикально змінювати кут огляду та нахиляти об’єктив.” – каже один із експертів каналу.
Все ж Runway має чималі недоліки. Головна проблема в зображеннях – загальна якість.
Всі зійшлись на тому, що завдяки численним інструментам Runway безумовно заслуговує на щабель S!
Firefly від Adobe – щось дійсно цінне?
В експертів є ексклюзивний доступ до бета-версії нової моделі Firefly. Ця модель здебільшого створювалась щоб розширити наявні продукти, як той самий Photoshop. Можливо, в Adobe і перестраховуються, але все ж не можна показувати згенеровані медіа без попереднього approval.
“Виглядає все дуже в стилі Adobe… Звичайно, це не той продукт за допомогою якого люди будуть генерувати Аватар 2, а згенерувати щось просте і базове – ідеальний варіант” – коментує експертність.
Більшість людей не потребує великих потужностей, а потребують частіше за все щось дуже простеньке. Як заміну об’єкту на стоковій фотографії.
Ще один козир у рукаві полягає в генеративному заповненню. Моделі все рівно генерують якісне зображення попри вихід із кадру.
Загальним рішенням було понизити щабель через NDA і відсутність загального доступу.
Meta Al – чи чекати на майбутнє?
На жаль, ніхто не має доступу до цієї моделі. Цілком можливо, що продукт ніколи і не випустять.
Навіть якщо випустять, то навряд чи це буде щось нове.
Нагадаємо, в Meta також не сильно люблять поширювати Open Source, тому довіра з боку спільноти мінімальна.
Продукт виглядає як згусток старих технологій, а не як потужна сучасна модель. Можливо, його випустять як чергове оновлення до Facebook, або як черговий фільтр.
Враховуючи вище сказане – вердикт D.
Підсумкова таблиця
На основі експертної оцінки результати виглядають наступним чином:
S-Tier | A-Tier | B-Tier | C-Tier | D-Tier |
---|---|---|---|---|
Veo | LTX | Nvidia | Hot Shot | |
Minimax | Luma Dream Machine | Meta Al | ||
Runway |
Пророкування на 2025 рік
В наступному році має вистрілити нова хвиля невідомих раніше генераторів. Звісно, не варто списувати зі счетов 3D відео.
Експерти передбачають, що в 2025 році основна увага буде зосереджена на інструментах, які можуть використовувати ШІ від вашого імені.
На добраніч
На сам кінець гості поділились посиланнями на власні соц мережі. Експертом виявився Тім із каналу Theoretically Media.
Варто зазначити, що переказувати відео довжиною в дві з половиною години – складна задача. Проте усе написане варто сприймати з іронією і купою скептицизму. Бо хтозна, що буде через декілька тижнів.