Майбутнє, що народжується: Погляд на MAGI-1, нового гіганта генерації відео з відкритим кодом
Якось вранці. Щоб було ясно, гортаючи стрічку новин з світу штучного інтелекту, я натрапила на твіт, який захопив мою уяву. “Sand AI випустили MAGI-1,” – гласив він, – “новаторську модель генерації відео з відкритим кодом, що обіцяє безпрецедентний контроль над часом, рухом і динамікою”. Мій серцевий детектор історії миттєво задзвонив. Нова технологія бо відкритий код і хтось готовий поділитися магією? Я мала це дослідити.
Перші враження з демонстраційного відео були справді захоплюючими. Молоде дівчисько реалістично опускає голову до квітки, і вона реагує, м’яко колихаючись, ніби справжня. Емоції на її обличчі, коли вона піднімає очі, – чистісінька душа, вловлена в цифри. Це не симуляція, це життя. Тіні від гілок дерев, що грають на її обличчі, лише посилюють відчуття реальності. Важко повірити, що це створено штучним інтелектом. Щоб було ясно,
Але, як і у будь-якого закоханого в історії, мені захотілося дізнатися більше. Отже, я занурилася вглиб і почала копати.
Нескінченний горизонт можливостей?
MAGI-1 претендує на “нескінченне розширення” відео -. Без фрагментів чи склеювання, що дозволяє створювати цілісні історії. Хоча з цим можна посперечатися – інші моделі, як-от WAN 2. 1, скажімо, скажімо, вже дозволяють використовувати кінцевий кадр як початок. Нового, – архітектура MAGI-1, ймовірно, більш “нативно” інтегрує розширення. Це дозволяє моделі спиратися на контекст попереднього відео, а не лише на конкретний кадр. Це, без сумніву, може дати кращі результати.
Також розробники обіцяють точний контроль часу – “секундний” рівень керування кожною миттю. Це може означати, що автори зможуть контролювати кожен рух, кожну деталь з неймовірною точністю. На перший погляд це звучить як революція.
Око всередині науково-фантастичного міста
Приємно вражає демонстрація. Як вражаючий приклад – величезне, “живе” око в науково-фантастичному місті, яке блимає й рухається. Деталізація просто захоплює: це не просто зображення, а справжній персонаж. Все це детально реалізовано і неймовірно. Рухи та деталі, особливо у блиманні, вражають. Дивно, хто б міг подумати, що таке реально створити за допомогою AI.
Особливо акцентують увагу на відсутності “ефекту сповільненої зйомки”. Кожен рух, кожна деталь виглядає реалістично, без тих недоліків, які часто зустрічаються у відео, згенерованих AI. Простіше кажучи,
Музика, що оживає в пікселях
Ще один блискучий приклад – дівчинка, яка грає на скрипці. Її пальці швидко перебирають струни, а інші частини тіла рухаються плавно. Це зовсім не сповільнена зйомка, а точне відтворення рухів скрипаля. Звичайно, звичайно, деталізація не на рівні професійної 4K камери, але для задачі, що стоїть перед AI, це – надзвичайний результат.
тобто, слухайте,
Відкритий код: дар, а не просто бонус
, десь так.
Найбільша родзинка – MAGI-1 повністю з відкритим кодом. Це означає, що вихідний код, і ваги моделі, доступні для вільного завантаження. Простіше кажучи, це дає креаторам та дослідникам можливість експериментувати, удосконалювати та використовувати цей інструмент як завгодно. Компанії часто тримають такі розробки за зачиненими дверима.
Як це от, працює хоча заглянемо під капот, в такому дусі.
MAGI-1 генерує відео за допомогою авторегресійного підходу. Справа в тому, що алгоритм передбачає послідовність відеофрагментів (chunks) – фіксованих відрізків кадрів. Модель навчається “знешумлювати” кожен фрагмент, де шум монотонно зростає. Звичайно,
Крім авторегресійного скажімо, навчання, команда Sand AI використала ряд алгоритмічних інновацій та виділену інфраструктуру. Контроль стає можливим завдяки поділу на фрагменти: плавні. Переходи, синтез довгих часових перспектив та детальний текстовий контроль.
Переможець? Порівняльні оцінки
Sand AI провела власне порівняльне оцінювання MAGI-1 з іншими відомими моделями з відкритим кодом, як-от Huan Video та Cling. Результати вражають:
- У порівнянні з Huan Video (WAN 2. 1), MAGI-1 виграла в 44% порівнянь, у той час як WAN 2. 1 – лише у 12%.
- У порівнянні з Hailu, MAGI-1 виграла у 30% оцінок, а Hailu – у 22%.
- Єдиною моделлю, яка демонструвала близькі результати, виявилася Cling.
Важливо розуміти, типу, що ці оцінки – це лише один погляд. Зрозуміло, можливості кожної моделі залежать від багатьох факторів: від конкретного завдання до вміння користувача. Дивно,
Демонстраційне відео: казка, розказана в цифрових кадрах
Окрім технічних деталей, команда MAGI-1 створила професійне демонстраційне відео. Воно демонструє можливості генерації відео, включаючи створення стабільних персонажів, ефектне поєднання різних сцен, і навіть гумор.
- Приклад: Актор зі штучним інтелектом вживається в різні ролі, від танцю до битви, демонструючи можливості моделі в створенні різноманітних відео. Простіше кажучи,
скажімо,
Доступність: які ресурси потрібні для роботи?
Для місцевої роботи з MAGI-1 потрібне обладнання. Безумовно, менша модель, MAGI-1 4. 5B, може працювати на одній RTX 4090 (24 ГБ відеопам’яті). Для 24B моделей потрібні чотири або вісім H100/H800.
Якщо ви не маєте такого потужного обладнання, можна скористатись веб-інтерфейсом MAGI-1. Також активно розвивається спільнота розробників, які працюють над оптимізацією моделі для більш доступних систем.
Рухаємось далі: експерименти з інтерфейсом
Веб-інтерфейс MAGI-1 досить простий. Він дозволяє генерувати припустимо, відео на основі зображень та текстових підказок.
- Приклад: Під час тестування з’ясувалося, що є гарна швидкість генерації, а також налаштовані параметри. Все просто у використанні, не тобто, перевантажує користувача технічними деталями, десь так.
На власному досвіді скажімо, я спробувала згенерувати декілька коротких відео та додати їх розширення.
- Один з прикладів: Я попросила згенерувати відео. Більше того, наприклад, з лимоном, що падає з неба, який ловить ротом чоловік. Все вийшло реалістично.
- Ще один приклад: Створила портрет Снуп Догга і. Попросила, щоб він з’явився у відео разом зі мною. Експеримент дивіться, пройшов вдало, незважаючи на деякі глюки з димом.
- Наступний експеримент: Відео з машиною. Model-AI, можливо, ще треба попрацювати, щоб вона могла краще розпізнавати рух автомобіля. Але сцена виїзду з димом та вогняним слідом вийшла динамічною.
На жаль, деякі з створених роликів не виправдали очікувань. 3D-анімація робота на ракеті з планетою, також не вийшло. Не все дається наприклад, з першого разу оскільки
Цінова політика: скільки коштує магія?
MAGI-1 пропонує як платні, так і безкоштовні опції. Дивно,
- Безкоштовний план: 500 “кредитів”, яких вистачить на невелику кількість генерацій.
- Платні плани:
- Plus (10$/міс): 1500 кредитів.
- Pro (40$/міс): 9000 кредитів. Насправді,
- Premium (100$/міс): 20 000 кредитів.
Вартість генерації становить близько 10 кредитів за секунду відео. Беручи до уваги швидкості технологічного прогресу в індустрії генерації відео, щорічні плани не рекомендуються.
Існує також можливість придбання кредитів начебто, окремо. І ціна – 10$ за 10 секунд відео.
Чи став MAGI-1 королем?
Висновок: MAGI-1 – це потужний інструмент з феноменальними можливостями. Справа в тому, що він здатний на створення реалістичних та високодеталізованих відео. Цікаво, але для ефективного використання потрібно навчитися правильно його “диригувати”, враховуючи особливості авторегресійного підходу.
MAGI-1 ще дуже новий, і спільнота розробників може запропонувати підтримку. Насправді,
У майбутньому, MAGI-1 може стати одним з ключових гравців на ринку генерації відео. Його можливості безперечні, а відкритий код дає йому перевагу.
Заключення: запрошення до співпраці
Я рекомендую всім спробувати MAGI-1 та поділитися своїми результатами. Світ чекає нових, дивовижних історій, згенерованих штучним інтелектом. Творіть, експериментуйте, діліться, давайте разом розширювати горизонти можливого.