Магія в кожному кадрі: як штучний інтелект оживляє. Мультфільми, і що це означає для майбутнього відео

    Уявіть. Собі світ, де ваші найсміливіші історії оживають на. Екрані, без необхідності у виснажливій праці аніматорів та сценаристів. Простіше кажучи, світ, де штучний інтелект (ШІ) бере на себе роль оповідача, створюючи захопливі відеоролики просто за вашим запитом. І, знаєте що але цей світ вже не за горами. Зрозуміло,

    Лише кілька років тому, заяви про AI-генерацію відео викликали лише скептичні усмішки. Ми бачили купу “глючного розумієте, місива”, далекого від реалістичного відео, але прогрес не стоїть на місці. Зрозуміло, сьогодні ж, ШІ здатен генерувати цілісні, логічні відео. Які іноді важко відрізнити від справжніх, знятих традиційним способом.

    Але уявіть собі, є одна річ, яка досі обмежувала можливості ШІ – тривалість відео. Більшість генераторів спроможні видавати лише короткі кліпи, до 20 секунд. І ось тут виникає питання: що, якщо ми зможемо створити повноцінну історію, від початку до кінця, в одному відео, тривалістю кілька хвилин, а можливо, й більше? Насправді, уявіть: різні кадри, склейки, послідовні персонажі, створені штучним інтелектом, що робить мрії реальністю.

    І, схоже, ця мрія починає збуватися. Нещодавнє дослідження продемонструвало можливість генерації хвилинного відео за допомогою техніки test-time training. Звісно, хвилина – це не так вже й багато, але це. – перший, надзвичайно важливий крок на шляху до створення справді магічного AI-відео.

    “Том і Джеррі”: перші ластівки нової ери

    .

    Щоб оцінити потенціал цієї технології, давайте поглянемо на приклад. ШІ було навчено на кліпах з “Тома і Джеррі”, і він створив хвилинний мультфільм у стилі класичної історії про цих нерозлучних ворогів.

    Відкривається відео динамічними кадрами міського пейзажу але машини снують вулицями, створюючи відчуття метушні. Насправді, а ось і Том, він підходить до ліфта, викликає його і заходить всередину. Ліфт переповнений людьми. Том ставить припустимо, на підлогу свій кейс і починає працювати на комп’ютері. І тут з’являється Джеррі. Без вагань, він береться от, за дроти, руйнуючи всю роботу Тома.

    Не знаю як вам, а мене це вражає. Різноманітні кадри, впізнавані персонажі, і при цьому – цілісна, логічна історія. Том працює в офісі, піднімається на ліфті, розкладає. Свої речі, і тут з’являється Джеррі, щоб все зіпсувати. Все це – не окремі кліпи, змонтовані разом. Це слухайте, – результат роботи штучного інтелекту.

    Том в розпачі: “Що відбувається з моїм комп’ютером? Він не працює! ” Він відходить від свого робочого місця. Джеррі зникає. Том намагається його зловити, женеться за ним по офісу. Аж поки Джеррі не приблизно, ховається у своїй нірці в стіні. Том, за класикою, врізається в стіну, боляче вдарившись головою. Він дивиться на годинник – запізнюється на зустріч. З’являється його розумієте, бос – пес, невдоволений запізненням. Класичний “Том і Джеррі”, чи не так? Джеррі уявіть собі, скажімо, радіє своїй перемозі тому кінець.

    Це лише хвилинна демонстрація, але вона вражає своєю цілісністю. Простіше кажучи, це припустимо, історія, де Джеррі знову перехитрив Тома. Саме цього ми і очікуємо від “Тома і Джеррі”. Але той факт, припустимо, що все це було створено ШІ, просто не вкладається в голові. Невже ми справді досягли того рівня, коли можемо навчити ШІ на основі. Цікаво, мультфільму і просто попросити його створити нову історію, яка буде розгортатися протягом хвилини?

    Звісно, якість генерації ще далека від ідеалу. Машини на вулиці виглядають жахливо, люди більше схожі на незрозумілі плями. Але не слід забувати, що це лише перші кроки в розробці технології для створення довготривалого відеоконтенту повністю автоматизованим способом.

    Проте, типу, навіть зараз, можна побачити певні позитивні моменти. Наприклад, те, як Том підходить до ліфта. Він несе свій кейс, цей предмет з’являється і пізніше, в інших сценах. Том заходить в ліфт, кейс все ще з ним. Коли він збирається працювати, він ставить кейс на підлогу і відкриває його. Хоч обличчя Тома виглядає не надто добре, його дії цілком логічні. Він виконує звичайну офісну роботу. Вся ця наприклад, візуальна розповідь, без жодного діалогу, просто неймовірна. Це показує високий рівень креативності генератора моделі проте

    Все будується на візуальному оповіданні. До речі, джеррі скажімо, підбігає, гризе провід, ламає комп’ютер, а Том просто намагається спокійно попрацювати. Кадр, де Джеррі дивиться на Тома, дуже схожий. Чесно кажучи, на попередній кадр, де Том дивився на Джеррі. Відверто кажучи, це робить історію зрозумілою.

    ШІ тільки вчиться, і з часом результати будуть лише покращуватися. Погоня Тома за Джеррі виглядає дуже динамічно. Очевидно, важко повірити, що все це було згенеровано ШІ. Відверто кажучи, вражає не якість зображення, а саме те, Момент, де Том врізається в стіну і дивиться на годинник, виглядає дуже логічно: він спізнюється на зустріч. І ось він вже на зустрічі.

    Test-time training: ключ до майбутнього AI-відео

    То як саме вдалося досягти таких результатів? Насправді, відповідь – у test-time training. До вже існуючої моделі Transformer були додані спеціальні шари test-time training, які потім були. Налаштовані для генерації хвилинних мультфільмів “Том і Джеррі” з послідовним і переконливим візуальним оповіданням.

    Важливо, що дослідники не обмежилися одним прикладом. Вони продемонстрували кілька відеороликів, кожен з яких розповідає свою унікальну історію.

    Аналізуючи приклад, дивіться, який я навів на початку, можна побачити що промт для нього був не малий. Він дивіться, містить детальний опис кожної сцени. Від машин, що снують містом, до центрального холу. Тома, який підходить до ліфта, і так далі. Зрозуміло, це припустимо, – дуже довгий промт, але ШІ впорався з ним блискуче.

    Він точно відтворив у відео все, що було описано в промті. Вже зараз можна використовувати цю модель для створення власних хвилинних скетчів про “Тома і Джеррі”. Можна навіть відправити їх у космос, якщо захочете. Чесно кажучи, уявіть, що буде, якщо поєднати цю технологію з більш потужними моделями.

    слід враховувати великі мовні моделі. Можна взяти приклад слухайте, промту, вставити його в. ChatGPT і типу, попросити створити інший, але з іншими деталями. Потім цей промт можна використати для генерації хвилинного відео. Зрозуміло,

    Інші історії: від сиру до підводних пригод

    Давайте подивимось на інші приклади. Один з них розповідає про те, як Джеррі намагається з’їсти величезний шматок сиру, але Том відбирає його і починає глузувати з мишеняти. Джеррі планує помсту тому цікаво, він складає і пере свій одяг. Потім він збирає валізу і йде з дому. Том сумує за Джеррі. Він бере шматок сиру і йде шукати мишеня. Він знаходить сліди, які привели його до Джеррі, що жив у своїй валізі. Том віддає йому сир оскільки джеррі радіє і вони знову стають друзями. Звичайно, том везе Джеррі додому у візку проте в кінці вони разом ділять сир. Ця історія припустимо, має більш позитивний характер, ніж попередні.

    Інша історія починається з того, що Том приносить свіжоспечений пиріг. Він збирається його з’їсти, але Джеррі, спостерігаючи за ним, вирішує вкрасти пиріг. Він дзвонить у двері і тікає. Том відчиняє двері, але нікого немає. Джеррі розумієте, бачите, пробирається в дім і краде пиріг. Том помічає його і починає переслідувати. Джеррі ховається у припустимо, своїй нірці, а Том, як завжди, врізається в стіну. Джеррі сміється, тримаючи в руках пиріг.

    Навіть при не найкращій якості генерації, історія виглядає цілісною і зрозумілою. Візуальна розповідь в даному випадку є ключовим фактором успіху. Хоч і не все виглядає ідеально (наприклад, момент. З дзвінком у двері), загальне враження залишається позитивним. Особливо вражає те,

    А ось приклад підводної пригоди. Джеррі пливе під водою з картою скарбів. Том також знаходиться під водою і намагається підкрастися до Джеррі. Починається погоня. Дивно, джеррі ховається в нірці, куди в принципі, Том не може пролізти. В кінці Джеррі знаходить скарб. Том хоче уявіть собі, його вкрасти, але його атакує акула. Джеррі радіє золотим монетам, а Том тікає від акули.

    Цікаво, що ШІ зміг створити нового персонажа -. Безумовно, безумовно, акулу, яка успадкувала деякі риси персонажів з “Тома і Джеррі”. ШІ зміг згенерувати типу, щось нове, чого, ймовірно, не було в навчальних даних.

    Останній приклад переносить нас на ярмарок. Том і Джеррі, здається, друзі і том тримає солодку вату. Вони підходять до гри, де потрібно збити банку м’ячем. Том кидає м’яч, але промахується оскільки джеррі сміється з нього. Том робить ще одну спробу, але знову промахується. Джеррі бере м’яч і збиває банку та том злиться. Джеррі отримує трофей і вони разом йдуть додому.

    У приблизно, цьому прикладі ШІ було важко передати взаємодію м’яча з банкою. Рух Тома виглядає дивно, м’яч летить в дивному напрямку. Але в наприклад, цілому, ШІ розуміє, як от, взаємодіють персонажі, м’яч, банка і трофей. Цікаво, і це – найголовніше але

    Глибокий аналіз: як це працює?

    Test-time training (TTT) шари є більш агресивними та виразними. При цьому, слухайте, приховані стани можуть бути нейронними мережами. Додавання цих шарів до попередньо навченої трансформаторної моделі дозволяє генерувати хвилинні відео з текстових розкадровок.

    Під час оцінки, дана технологія обійшла конкурентів на. 34 пункти ELO у людських оцінках 100 відео на метод. Але, звичайно, результати містять багато артефактів. Це пов’язано з тим, що використовувалася лише 5 мільярдна модель, навчена на мультфільмах “Том і Джеррі”. Також, ефективність реалізації може бути покращена. Чесно кажучи,

    Варто зазначити, що експерименти проводилися лише з хвилинними відео. Але тривалість може бути збільшена, а історії ускладнені. Для наприклад, цього потрібно більше ресурсів і часу.

    слухайте,

    Порівняння з іншими методами показують, що TTT. Простіше кажучи, демонструє стабільну узгодженість персонажів і часу протягом усього відео. Очевидно, модель зберігає часову узгодженість під час зміни сцени та кутів. У той час як інші моделі спотворюють зовнішність Тома. Змінюють кухонне середовище приблизно, або дублюють Джеррі, що краде пиріг, типу того.

    Обмеження моделі очевидні. Це 5-мільярдна модель, навчена на “Том і Джеррі”. Її можна значно покращити. Але найцікавіше те, що вона є open-source і будується на інших open-source проектах, приблизно так. На GitHub є код для навчання та висновування до 63 секунд відео. Зрозуміло, що спільнота буде модифікувати його і намагатися збільшити тривалість і складність відео.

    Для налаштування моделі на “Тома і Джеррі” використовуються. Щоб було ясно, 3-секундні відео уявіть собі, для перенесення стилю і включення TTT шарів. Потім модель навчається поетапно, починаючи з 9, потім. 18, 30 і, нарешті, 63 секунд, щоб розширити контекст. Дивно,

    Архітектура адаптує COG video X. Це open-source наприклад, модель генерації відео з 5 мільярдами параметрів. Це дифузійна трансформаторна модель для перетворення тексту у відео. TTT шари додаються поверх неї. Вочевидь, готової моделі “Тома і Джеррі” не надається. Якщо ви хочете використовувати цю модель, вам доведеться навчати її самостійно. Але код надається.

    Майбутнє AI-відео: горизонти безмежні

    Яке майбутнє чекає на цю технологію? Перш за все, цей метод можна застосувати до кращих генераторів відео, ніж COG video. Можна інтегрувати його в дивіться, щось більш надійне, узгоджене і з кращим навчанням. В результаті ми отримаємо епізоди “Тома і Джеррі”, які будуть. Виглядати значно краще значить, з точки зору якості, чіткості та анімації, десь так.

    Наступним кроком буде навчання на довших відео, аж до 10 хвилин і більше. Тоді можна буде створювати повноцінні мультфільми “Том і Джеррі”, повністю згенеровані ну, за вашим бажанням, з вашим власним стилем і персонажами, типу того. І ми вже дуже близько до цього.

    Генерація відео стрімко наближається до світлого майбутнього, де можна буде створювати довготривалі відео, які тривають хвилини, а не секунди.

    Уявіть, що скажімо, у вас є генератор AI-відео, який може створювати послідовні. Історії тривалістю до уявіть собі, 10 хвилин з об’єктами, персонажами, сюжетними елементами і всім іншим. Фактично, які ще можливості ви бачите для технологій і досліджень, подібних до цієї? Безумовно,

    Завдяки цьому відео я зрозумів, що майбутнє вже настає і, швидше за. До речі, все, скоро ми будемо користуватись штучним інтелектом для створення мультфільмів у різних варіаціях.

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x