Майбутнє, що народжується: Погляд на MAGI-1, нового гіганта генерації відео з відкритим кодом
Якось вранці, гортаючи стрічку новин з світу штучного інтелекту, я натрапила на твіт, який захопив мою уяву. “Sand AI випустили MAGI-1,” – гласив він, – “новаторську модель генерації відео з відкритим кодом, що обіцяє безпрецедентний контроль над часом, рухом і динамікою”. Мій серцевий детектор історії миттєво задзвонив. Нова технологія? Відкритий код? Хтось готовий поділитися магією? Я мала це дослідити.
Перші враження з демонстраційного відео були справді захоплюючими. Молоде дівчисько реалістично опускає голову до квітки, і вона реагує, м’яко колихаючись, ніби справжня. Емоції на її обличчі, коли вона піднімає очі, – чистісінька душа, вловлена в цифри. Це не симуляція, це життя. Тіні від гілок дерев, що грають на її обличчі, лише посилюють відчуття реальності. Важко повірити, що це створено штучним інтелектом.
Але, як і у будь-якого закоханого в історії, мені захотілося дізнатися більше. Отже, я занурилася вглиб і почала копати.
Нескінченний горизонт можливостей?
MAGI-1 претендує на “нескінченне розширення” відео – без фрагментів чи склеювання, що дозволяє створювати цілісні історії. Хоча з цим можна посперечатися – інші моделі, як-от WAN 2.1, вже дозволяють використовувати кінцевий кадр як початок нового, – архітектура MAGI-1, ймовірно, більш “нативно” інтегрує розширення. Це дозволяє моделі спиратися на контекст попереднього відео, а не лише на конкретний кадр. Це, без сумніву, може дати кращі результати.
Також розробники обіцяють точний контроль часу – “секундний” рівень керування кожною миттю. Це може означати, що автори зможуть контролювати кожен рух, кожну деталь з неймовірною точністю. На перший погляд це звучить як революція.
Око всередині науково-фантастичного міста
Приємно вражає демонстрація. Як вражаючий приклад – величезне, “живе” око в науково-фантастичному місті, яке блимає й рухається. Деталізація просто захоплює: це не просто зображення, а справжній персонаж. Все це детально реалізовано і неймовірно. Рухи та деталі, особливо у блиманні, вражають. Хто б міг подумати, що таке реально створити за допомогою AI?!
Особливо акцентують увагу на відсутності “ефекту сповільненої зйомки”. Кожен рух, кожна деталь виглядає реалістично, без тих недоліків, які часто зустрічаються у відео, згенерованих AI.
Музика, що оживає в пікселях
Ще один блискучий приклад – дівчинка, яка грає на скрипці. Її пальці швидко перебирають струни, а інші частини тіла рухаються плавно. Це зовсім не сповільнена зйомка, а точне відтворення рухів скрипаля. Звичайно, деталізація не на рівні професійної 4K камери, але для задачі, що стоїть перед AI, це – надзвичайний результат.
Відкритий код: дар, а не просто бонус
Найбільша родзинка – MAGI-1 повністю з відкритим кодом. Це означає, що вихідний код, і ваги моделі, доступні для вільного завантаження. Це дає креаторам та дослідникам можливість експериментувати, удосконалювати та використовувати цей інструмент як завгодно. Компанії часто тримають такі розробки за зачиненими дверима.
Як це працює? Заглянемо під капот.
MAGI-1 генерує відео за допомогою авторегресійного підходу. Алгоритм передбачає послідовність відеофрагментів (chunks) – фіксованих відрізків кадрів. Модель навчається “знешумлювати” кожен фрагмент, де шум монотонно зростає.
Крім авторегресійного навчання, команда Sand AI використала ряд алгоритмічних інновацій та виділену інфраструктуру. Контроль стає можливим завдяки поділу на фрагменти: плавні переходи, синтез довгих часових перспектив та детальний текстовий контроль.
Переможець? Порівняльні оцінки
Sand AI провела власне порівняльне оцінювання MAGI-1 з іншими відомими моделями з відкритим кодом, як-от Huan Video та Cling. Результати вражають:
- У порівнянні з Huan Video (WAN 2.1), MAGI-1 виграла в 44% порівнянь, у той час як WAN 2.1 – лише у 12%.
- У порівнянні з Hailu, MAGI-1 виграла у 30% оцінок, а Hailu – у 22%.
- Єдиною моделлю, яка демонструвала близькі результати, виявилася Cling.
Важливо розуміти, що ці оцінки – це лише один погляд. Можливості кожної моделі залежать від багатьох факторів: від конкретного завдання до вміння користувача.
Демонстраційне відео: казка, розказана в цифрових кадрах
Окрім технічних деталей, команда MAGI-1 створила професійне демонстраційне відео. Воно демонструє можливості генерації відео, включаючи створення стабільних персонажів, ефектне поєднання різних сцен, і навіть гумор.
- Приклад: Актор зі штучним інтелектом вживається в різні ролі, від танцю до битви, демонструючи можливості моделі в створенні різноманітних відео.
Доступність: які ресурси потрібні для роботи?
Для місцевої роботи з MAGI-1 потрібне обладнання. Менша модель, MAGI-1 4.5B, може працювати на одній RTX 4090 (24 ГБ відеопам’яті). Для 24B моделей потрібні чотири або вісім H100/H800.
Якщо ви не маєте такого потужного обладнання, можна скористатись веб-інтерфейсом MAGI-1. Також активно розвивається спільнота розробників, які працюють над оптимізацією моделі для більш доступних систем.
Рухаємось далі: експерименти з інтерфейсом
Веб-інтерфейс MAGI-1 досить простий. Він дозволяє генерувати відео на основі зображень та текстових підказок.
- Приклад: Під час тестування з’ясувалося, що є гарна швидкість генерації, а також налаштовані параметри. Все просто у використанні, не перевантажує користувача технічними деталями.
На власному досвіді я спробувала згенерувати декілька коротких відео та додати їх розширення.
- Один з прикладів: Я попросила згенерувати відео з лимоном, що падає з неба, який ловить ротом чоловік. Все вийшло реалістично.
- Ще один приклад: Створила портрет Снуп Догга і попросила, щоб він з’явився у відео разом зі мною. Експеримент пройшов вдало, незважаючи на деякі глюки з димом.
- Наступний експеримент: Відео з машиною. Model-AI, можливо, ще треба попрацювати, щоб вона могла краще розпізнавати рух автомобіля. Але сцена виїзду з димом та вогняним слідом вийшла динамічною.
На жаль, деякі з створених роликів не виправдали очікувань. 3D-анімація робота на ракеті з планетою, також не вийшло. Не все дається з першого разу.
Цінова політика: скільки коштує магія?
MAGI-1 пропонує як платні, так і безкоштовні опції.
- Безкоштовний план: 500 “кредитів”, яких вистачить на невелику кількість генерацій.
- Платні плани:
- Plus (10$/міс): 1500 кредитів.
- Pro (40$/міс): 9000 кредитів.
- Premium (100$/міс): 20 000 кредитів.
Вартість генерації становить близько 10 кредитів за секунду відео. З урахуванням швидкості технологічного прогресу в індустрії генерації відео, щорічні плани не рекомендуються.
Існує також можливість придбання кредитів окремо. Ціна – 10$ за 10 секунд відео.
Чи став MAGI-1 королем?
Висновок: MAGI-1 – це потужний інструмент з феноменальними можливостями. Він здатний на створення реалістичних та високодеталізованих відео. Але для ефективного використання потрібно навчитися правильно його “диригувати”, враховуючи особливості авторегресійного підходу.
MAGI-1 ще дуже новий, і спільнота розробників може запропонувати підтримку.
У майбутньому, MAGI-1 може стати одним з ключових гравців на ринку генерації відео. Його можливості безперечні, а відкритий код дає йому перевагу.
Заключення: запрошення до співпраці
Я рекомендую всім спробувати MAGI-1 та поділитися своїми результатами. Світ чекає нових, дивовижних історій, згенерованих штучним інтелектом. Творіть, експериментуйте, діліться, давайте разом розширювати горизонти можливого.