Магія в кожному кадрі: як штучний інтелект оживляє мультфільми, і що це означає для майбутнього відео
Уявіть собі світ, де ваші найсміливіші історії оживають на екрані, без необхідності у виснажливій праці аніматорів та сценаристів. Світ, де штучний інтелект (ШІ) бере на себе роль оповідача, створюючи захопливі відеоролики просто за вашим запитом. І, знаєте що? Цей світ вже не за горами.
Лише кілька років тому, заяви про AI-генерацію відео викликали лише скептичні усмішки. Ми бачили купу “глючного місива”, далекого від реалістичного відео, але прогрес не стоїть на місці. Сьогодні ж, ШІ здатен генерувати цілісні, логічні відео, які іноді важко відрізнити від справжніх, знятих традиційним способом.
Але є одна річ, яка досі обмежувала можливості ШІ – тривалість відео. Більшість генераторів спроможні видавати лише короткі кліпи, до 20 секунд. І ось тут виникає питання: що, якщо ми зможемо створити повноцінну історію, від початку до кінця, в одному відео, тривалістю кілька хвилин, а можливо, й більше? Уявіть: різні кадри, склейки, послідовні персонажі, створені штучним інтелектом, що робить мрії реальністю.
І, схоже, ця мрія починає збуватися. Нещодавнє дослідження продемонструвало можливість генерації хвилинного відео за допомогою техніки test-time training. Звісно, хвилина – це не так вже й багато, але це – перший, надзвичайно важливий крок на шляху до створення справді магічного AI-відео.
“Том і Джеррі”: перші ластівки нової ери
Щоб оцінити потенціал цієї технології, давайте поглянемо на приклад. ШІ було навчено на кліпах з “Тома і Джеррі”, і він створив хвилинний мультфільм у стилі класичної історії про цих нерозлучних ворогів.
Відкривається відео динамічними кадрами міського пейзажу. Машини снують вулицями, створюючи відчуття метушні. А ось і Том, він підходить до ліфта, викликає його і заходить всередину. Ліфт переповнений людьми. Том ставить на підлогу свій кейс і починає працювати на комп’ютері. І тут з’являється Джеррі. Без вагань, він береться за дроти, руйнуючи всю роботу Тома.
Не знаю як вам, а мене це вражає. Різноманітні кадри, впізнавані персонажі, і при цьому – цілісна, логічна історія. Том працює в офісі, піднімається на ліфті, розкладає свої речі, і тут з’являється Джеррі, щоб все зіпсувати. Все це – не окремі кліпи, змонтовані разом. Це – результат роботи штучного інтелекту.
Том в розпачі: “Що відбувається з моїм комп’ютером? Він не працює!” Він відходить від свого робочого місця. Джеррі зникає. Том намагається його зловити, женеться за ним по офісу, аж поки Джеррі не ховається у своїй нірці в стіні. Том, за класикою, врізається в стіну, боляче вдарившись головою. Він дивиться на годинник – запізнюється на зустріч. З’являється його бос – пес, невдоволений запізненням. Класичний “Том і Джеррі”, чи не так? Джеррі радіє своїй перемозі. Кінець.
Це лише хвилинна демонстрація, але вона вражає своєю цілісністю. Це історія, де Джеррі знову перехитрив Тома. Саме цього ми і очікуємо від “Тома і Джеррі”. Але той факт, що все це було створено ШІ, просто не вкладається в голові. Невже ми справді досягли того рівня, коли можемо навчити ШІ на основі мультфільму і просто попросити його створити нову історію, яка буде розгортатися протягом хвилини?
Звісно, якість генерації ще далека від ідеалу. Машини на вулиці виглядають жахливо, люди більше схожі на незрозумілі плями. Але не слід забувати, що це лише перші кроки в розробці технології для створення довготривалого відеоконтенту повністю автоматизованим способом.
Проте, навіть зараз, можна побачити певні позитивні моменти. Наприклад, те, як Том підходить до ліфта. Він несе свій кейс, цей предмет з’являється і пізніше, в інших сценах. Том заходить в ліфт, кейс все ще з ним. Коли він збирається працювати, він ставить кейс на підлогу і відкриває його. Хоч обличчя Тома виглядає не надто добре, його дії цілком логічні. Він виконує звичайну офісну роботу. Вся ця візуальна розповідь, без жодного діалогу, просто неймовірна. Це показує високий рівень креативності генератора моделі.
Все будується на візуальному оповіданні. Джеррі підбігає, гризе провід, ламає комп’ютер, а Том просто намагається спокійно попрацювати. Кадр, де Джеррі дивиться на Тома, дуже схожий на попередній кадр, де Том дивився на Джеррі. Це робить історію зрозумілою.
ШІ тільки вчиться, і з часом результати будуть лише покращуватися. Погоня Тома за Джеррі виглядає дуже динамічно. Важко повірити, що все це було згенеровано ШІ. Вражає не якість зображення, а саме те, як ШІ зміг створити цілісну історію протягом досить тривалого періоду часу. Момент, де Том врізається в стіну і дивиться на годинник, виглядає дуже логічно: він спізнюється на зустріч. І ось він вже на зустрічі.
Test-time training: ключ до майбутнього AI-відео
То як саме вдалося досягти таких результатів? Відповідь – у test-time training. До вже існуючої моделі Transformer були додані спеціальні шари test-time training, які потім були налаштовані для генерації хвилинних мультфільмів “Том і Джеррі” з послідовним і переконливим візуальним оповіданням.
Важливо, що дослідники не обмежилися одним прикладом. Вони продемонстрували кілька відеороликів, кожен з яких розповідає свою унікальну історію.
Аналізуючи приклад, який я навів на початку, можна побачити що промт для нього був не малий. Він містить детальний опис кожної сцени. Від машин, що снують містом, до центрального холу, Тома, який підходить до ліфта, і так далі. Це – дуже довгий промт, але ШІ впорався з ним блискуче.
Він точно відтворив у відео все, що було описано в промті. Вже зараз можна використовувати цю модель для створення власних хвилинних скетчів про “Тома і Джеррі”. Можна навіть відправити їх у космос, якщо захочете. Уявіть, що буде, якщо поєднати цю технологію з більш потужними моделями.
Крім того, слід враховувати великі мовні моделі. Можна взяти приклад промту, вставити його в ChatGPT і попросити створити інший, але з іншими деталями. Потім цей промт можна використати для генерації хвилинного відео.
Інші історії: від сиру до підводних пригод
Давайте подивимось на інші приклади. Один з них розповідає про те, як Джеррі намагається з’їсти величезний шматок сиру, але Том відбирає його і починає глузувати з мишеняти. Джеррі планує помсту. Він складає і пере свій одяг. Потім він збирає валізу і йде з дому. Том сумує за Джеррі. Він бере шматок сиру і йде шукати мишеня. Він знаходить сліди, які привели його до Джеррі, що жив у своїй валізі. Том віддає йому сир. Джеррі радіє і вони знову стають друзями. Том везе Джеррі додому у візку. В кінці вони разом ділять сир. Ця історія має більш позитивний характер, ніж попередні.
Інша історія починається з того, що Том приносить свіжоспечений пиріг. Він збирається його з’їсти, але Джеррі, спостерігаючи за ним, вирішує вкрасти пиріг. Він дзвонить у двері і тікає. Том відчиняє двері, але нікого немає. Джеррі пробирається в дім і краде пиріг. Том помічає його і починає переслідувати. Джеррі ховається у своїй нірці, а Том, як завжди, врізається в стіну. Джеррі сміється, тримаючи в руках пиріг.
Навіть при не найкращій якості генерації, історія виглядає цілісною і зрозумілою. Візуальна розповідь в даному випадку є ключовим фактором успіху. Хоч і не все виглядає ідеально (наприклад, момент з дзвінком у двері), загальне враження залишається позитивним. Особливо вражає те, як ШІ зміг передати всю історію з усіма деталями.
А ось приклад підводної пригоди. Джеррі пливе під водою з картою скарбів. Том також знаходиться під водою і намагається підкрастися до Джеррі. Починається погоня. Джеррі ховається в нірці, куди Том не може пролізти. В кінці Джеррі знаходить скарб. Том хоче його вкрасти, але його атакує акула. Джеррі радіє золотим монетам, а Том тікає від акули.
Цікаво, що ШІ зміг створити нового персонажа – акулу, яка успадкувала деякі риси персонажів з “Тома і Джеррі”. ШІ зміг згенерувати щось нове, чого, ймовірно, не було в навчальних даних.
Останній приклад переносить нас на ярмарок. Том і Джеррі, здається, друзі. Том тримає солодку вату. Вони підходять до гри, де потрібно збити банку м’ячем. Том кидає м’яч, але промахується. Джеррі сміється з нього. Том робить ще одну спробу, але знову промахується. Джеррі бере м’яч і збиває банку. Том злиться. Джеррі отримує трофей і вони разом йдуть додому.
У цьому прикладі ШІ було важко передати взаємодію м’яча з банкою. Рух Тома виглядає дивно, м’яч летить в дивному напрямку. Але в цілому, ШІ розуміє, як взаємодіють персонажі, м’яч, банка і трофей. І це – найголовніше.
Глибокий аналіз: як це працює?
Test-time training (TTT) шари є більш агресивними та виразними. При цьому, приховані стани можуть бути нейронними мережами. Додавання цих шарів до попередньо навченої трансформаторної моделі дозволяє генерувати хвилинні відео з текстових розкадровок.
Під час оцінки, дана технологія обійшла конкурентів на 34 пункти ELO у людських оцінках 100 відео на метод. Але, звичайно, результати містять багато артефактів. Це пов’язано з тим, що використовувалася лише 5 мільярдна модель, навчена на мультфільмах “Том і Джеррі”. Також, ефективність реалізації може бути покращена.
Варто зазначити, що експерименти проводилися лише з хвилинними відео. Але тривалість може бути збільшена, а історії ускладнені. Для цього потрібно більше ресурсів і часу.
Порівняння з іншими методами показують, що TTT демонструє стабільну узгодженість персонажів і часу протягом усього відео. Модель зберігає часову узгодженість під час зміни сцени та кутів. У той час як інші моделі спотворюють зовнішність Тома, змінюють кухонне середовище або дублюють Джеррі, що краде пиріг.
Обмеження моделі очевидні. Це 5-мільярдна модель, навчена на “Том і Джеррі”. Її можна значно покращити. Але найцікавіше те, що вона є open-source і будується на інших open-source проектах. На GitHub є код для навчання та висновування до 63 секунд відео. Зрозуміло, що спільнота буде модифікувати його і намагатися збільшити тривалість і складність відео.
Для налаштування моделі на “Тома і Джеррі” використовуються 3-секундні відео для перенесення стилю і включення TTT шарів. Потім модель навчається поетапно, починаючи з 9, потім 18, 30 і, нарешті, 63 секунд, щоб розширити контекст.
Архітектура адаптує COG video X. Це open-source модель генерації відео з 5 мільярдами параметрів. Це дифузійна трансформаторна модель для перетворення тексту у відео. TTT шари додаються поверх неї. Вочевидь, готової моделі “Тома і Джеррі” не надається. Якщо ви хочете використовувати цю модель, вам доведеться навчати її самостійно. Але код надається.
Майбутнє AI-відео: горизонти безмежні
Яке майбутнє чекає на цю технологію? Перш за все, цей метод можна застосувати до кращих генераторів відео, ніж COG video. Можна інтегрувати його в щось більш надійне, узгоджене і з кращим навчанням. В результаті ми отримаємо епізоди “Тома і Джеррі”, які будуть виглядати значно краще з точки зору якості, чіткості та анімації.
Наступним кроком буде навчання на довших відео, аж до 10 хвилин і більше. Тоді можна буде створювати повноцінні мультфільми “Том і Джеррі”, повністю згенеровані за вашим бажанням, з вашим власним стилем і персонажами. І ми вже дуже близько до цього.
Генерація відео стрімко наближається до світлого майбутнього, де можна буде створювати довготривалі відео, які тривають хвилини, а не секунди.
Уявіть, що у вас є генератор AI-відео, який може створювати послідовні історії тривалістю до 10 хвилин з об’єктами, персонажами, сюжетними елементами і всім іншим. Які ще можливості ви бачите для технологій і досліджень, подібних до цієї?
Завдяки цьому відео я зрозумів, що майбутнє вже настає і, швидше за все, скоро ми будемо користуватись штучним інтелектом для створення мультфільмів у різних варіаціях.