Штучний Інтелект та Ігри: Microsoft відкриває двері в майбутнє, а ByteDance готує TikTok до нових звершень
У світі штучного інтелекту постійно щось відбувається, і цього тижня у нас просто вибуховий коктейль новин! Microsoft Research щойно представила справді круту розробку – щось на зразок AI-конструктора ігор. Це варте детального розбору, а найкрутіше те, що вони несподівано відкрили код! Крім того, нас чекає нова AI-модель для створення відео з відкритим кодом, а ByteDance демонструє Phantom – останнє слово у технології перетворення зображень на відео одним кліком. Тож хапайте свій контролер, і вирушаймо в дорогу!
Я вже деякий час стежу за тим, як перетинаються AI та відеоігри, і бачив чимало цікавих технологій. Згадайте хоча б AI Doom, який показували раніше, або Genie 2 від Google DeepMind. Але зауважте, я б не класифікував жоден із цих проєктів як ігри. Це, скоріше, AI-відеомоделі, які реагують на введення з клавіатури для генерації контенту.
А ось Muse – це генеративна AI-модель, якою керує гравець. І хоча вона дещо схожа на Genie 2, є ключові відмінності. Microsoft дійсно підняла планку! Звісно, варто зазначити, що приклад відео виглядає трохи сирим. Здається, роздільна здатність тут близько 300×180 пікселів, а частота кадрів – близько 10 в секунду. Тому ви навряд чи захочете грати в це на своєму дорогому ігровому моніторі чи 65-дюймовому телевізорі. Але пам’ятайте, це дослідницький проєкт, і, як ми обговоримо трохи згодом, він не призначений для створення ігор за запитом.
В основі Muse лежить технологія під назвою WHAM, або World and Human Action Model (Модель світу та людських дій). Цікаво, вони спочатку вигадують абревіатуру, а вже потім назву? Я починаю підозрювати, що так і є. WHAM передали Xbox Game Studio Ninja Theory для навчання на їхній грі Bleeding Edge. Велика кількість відеозаписів була зроблена з реальної людини, яка грає в гру. Власне, те, що ми бачимо, – це, мабуть, щось на зразок гри в стилі 4×4 на арені. Я ніколи в неї не грав, але виглядає весело. Вони взяли всі ці дані, обробили їх за допомогою GPU-кластера, а потім прогнали вихідні дані через кілька Nvidia H100. Хочу зазначити, що Nvidia H100, яка, здається, є моделлю Grace Hopper, коштувала близько 30 000 доларів, і їх було кілька! Все це призвело до 1 мільйона оновлень навчання, як у будь-якому хорошому монтажі тренувань із бойовика 80-х.
Все це допомогло їм подолати багато проблем, які були у моделі Doom та Genie 2. Зокрема: впізнавані персонажі, базові рухи в геометрії та відсутність деградації з часом. Персистенція, хоч і звучить трохи дивно, означає введення нових елементів у генерацію моделі та відповідну реакцію на них. У цьому першому прикладі ми бачимо доданого персонажа, який починає битися з головним героєм, як і слід було очікувати.
Усе це дуже круто, але очевидно, що в це не хочеться грати. Тож у чому сенс? За словами Microsoft, це інструмент, який дозволяє розробникам ігор редагувати рівень гри, використовуючи існуючі концепції гри, а також тестувати різні речі. Наприклад, розміщувати елементи та перевіряти, чи може персонаж виконати стрибок. Як розробник Sketchpad, можу сказати, що це має сенс. Хоча чи є це зараз практичним, враховуючи, що для захоплення відео та генерації симуляції потрібні численні H100? Напевно, ні, але це заразшній масштаб. А ми знаємо, що технології стають швидшими та дешевшими.
Яким же є майбутнє Muse? Генеральний директор Microsoft Gaming, Філ Спенсер, вважає, що її можна використовувати для збереження ігор. Спенсер сказав, що можна уявити собі світ, де на основі даних ігрового процесу та відео модель може вивчати старі ігри та робити їх портативними для будь-якої платформи. Крім того, ці моделі можуть повністю навчитися грати в гру без необхідності запуску оригінального двигуна на оригінальному обладнанні. Він вважає, що це відкриває масу можливостей. Хоча до цього ще далеко, важливо пам’ятати, що Bethesda зможе повторно випустити Skyrim, коли у нас усіх будуть iPhone 32.
Поки я записую це відео, з’явилась термінова новина: Alibaba анонсувала нову модель для створення відео, яку вони планують випустити з відкритим кодом. Здається, вона називається w x 2.1 або wanks. Я не впевнений, але припускаю, що це w x. У нас є лише демонстраційні кадри, які вони опублікували. Ця послідовність демонструє складний рух та досить якісний результат. Здається, вони точно переглянули деякі олімпійські відео. Далі вони демонструють фізику. Все це виглядає чудово, точно на рівні з V2 від Google, яка, на мою думку, має найкращу фізику серед усіх AI-генераторів відео. Потім вони демонструють деякі кінематографічні стилі, які схиляються до анімаційних. Цікаво, що це може означати. І наостанок, модель може обробляти генерацію тексту та те, що вони називають VFX.
Знову ж – це лише анонс. Я впевнений, що ми почуємо більше про це найближчими днями, особливо враховуючи, що це відкритий код. Тож поки ми чекаємо на wanex або wanks, давайте подивимось на те, з чим ми можемо погратися – а саме, Kyber.
АЛЕ спочатку… 2025 рік у розпалі, і незалежно від того, як ви використовуєте AI, наявність розумного маркетингового плану – це ключ до підвищення рівня вашого бізнесу. На щастя для нас, у наших друзів з HubSpot є безкоштовний набір інструментів AI-маркетингу, доступний для завантаження в описі. У маркетинговому наборі ви отримаєте доступ до електронної книги з покроковою інструкцією про те, як насправді використовувати AI. Якщо ви досвідчений професіонал у галузі маркетингу або тільки починаєте свій малий бізнес, знання тут справді виділять вас серед інших. Цей документ допоможе вам у всьому: від визначення ваших маркетингових цілей до побудови вашої AI-маркетингової стратегії, відстеження ефективності для оптимізації та багато іншого, і навіть включає додатковий набір AI-інструментів, які вам варто перевірити, щоб піти ще далі з AI. Ви навіть отримаєте понад 1000 попередньо заготовлених AI-підказок, тож вам не доведеться починати використовувати AI з нуля. Тут є безліч майстерно розроблених підказок, що охоплюють все: від копірайтингу до ціноутворення та дистрибуції, і багато іншого. Але моя улюблена річ тут – це розділ про те, як створити свою маркетингову стратегію за 12 кроків. Тут чітко вказано, коли вам слід визначати свою цільову аудиторію, а коли – розробляти свою унікальну пропозицію бренду. Як кажуть, вас не замінить AI, але вас замінить хтось, хто використовує AI. Тож обов’язково випередіть хвилю і завантажте безкоштовні ресурси нижче. Моя подяка HubSpot за спонсорування сьогоднішнього відео.
Якщо ви стежите за каналом деякий час, ви знаєте, що я був великим шанувальником Kyber. Нещодавно вони зробили великий стрибок, по суті, перетворивши всю платформу на Super Studio. Якщо ви пропустили це, я зробив ціле відео про Super Studio від Kyber. Посилання в описі. Я знаю, що не всі в захваті від, так би мовити, “дошки для вбивств AI”, але мені завжди подобалося, що Kyber зберігає свою дивакуватість.
З моєї точки зору, я поважаю той факт, що вони спробували зробити щось круте. Хоча, визнаю, на старті все було не дуже добре. Але вони виправили це і додали багато функцій. Наприклад, ви можете тренувати Lora тут. Ви можете генерувати зображення в Recraft. Я робив ціле відео про Recraft деякий час тому. Мені дуже подобається Recraft. Якщо ви ще не пробували їх, вам обов’язково варто це зробити. У нас є стандартні генератори відео Cling, Minimax, Runway та Luma, а також багато інших цікавих речей, таких як Topaz image upscaler. Тут також є відео upscaling. Їхній Video restyle 2.0 тут, а також можливість розділяти стебла з аудіо.
Почнімо з чогось більш дивного та художнього, перш ніж переходити до більш практичного використання. Ось одне з моїх улюблених – це відео, яке я зняв, як я граю на гітарі одного вечора. Я пропустив його через стару модель video-to-video від Kyber.
[Музика]
За допомогою нового відеорестайлу та використання цього як еталонного зображення, ми отримуємо цей результат. Він, звичайно, все ще дивний, але також і крутий. Є якесь перетворення, але я думаю, що це більше пов’язано з вихідним відео, ніж з чимось іншим. Не знаю, мені подобається.
Короткий огляд аудіо. Це генерація аудіо, яку я зробив деякий час тому. Давайте послухаємо.
[Музика]
Звідси ви можете відокремити різні інструменти. Давайте спробуємо гітару.
[Музика]
А тепер швидко поглянемо на функцію audio-to-video. Це результат, який я згенерував у Sky reels два дні тому. І просто дав йому підказку “чоловік починає сміятися”. Давайте подивимось, що ми отримали.
[Сміх]
Це досить непогано. Можливо, я б не використав це для фінального треку, але той факт, що воно вловлює момент сміху, – це чудово.
Переходимо до більш практичного робочого процесу. Якщо це виглядає заплутано, я обіцяю, що це не так. Я проведу вас через усе це. По-перше, я просто імпортував Model Maker або Lora, і зв’язав її з колекцією зображень Midjourney, які я використовував за допомогою Midjourney’s CF, щоб створити персонажа. Будь-хто, хто використовував CF, знає, що є “незначні невідповідності”, але я подумав, що цього достатньо, щоб було досить близько. Створення її автоматично створить колекцію Flux. Звідси я переніс її в Image Lab. Все, що вам потрібно зробити, – це підключити їх тут. Вони зробили дуже розумну річ, закодувавши все кольорами.
Одна з суперздібностей Image Lab – це функція stencil. Це наше покоління Bootleg Lora Croft, яке ми нещодавно зібрали в 2D to 3D від Ka. Просто беремо її та наш навчений персонаж Lora. Залежно від підказки та стилізації, ми отримали такі результати. Я мушу сказати, що з точки зору послідовності вона досить близька, але, безумовно, черпає вплив з нашого боку Lora Croft. Отже, якщо ви дійсно прагнете послідовності, вам майже доведеться створювати зворотний інжиніринг з ваших stencil ref. Мені сподобався цей результат, тому я створив тут Minimax flow, з’єднав їх і дав підказку: “Дівчина повертається до камери, коли камера обертається”, і використав Minimax 01 live model. Я запустив його тричі, перш ніж зупинитися на цьому. Я був досить щасливий. Але тут відбувається щось цікаве, тому що я потім створюю інший вузол у Video rest styliz 2.0. На диво, ми отримали наше обертання камери. Звичайно, ви можете взяти цей вихід і почати дивакувати з ним. У мене немає проблем з цим. Насправді, мені це подобається. Звідти ми просто все перенесли на відео upscale, який також потрапляє в іншу папку. Клацаємо на нього, а потім додаємо audio to video.
Якщо зменшити масштаб, зараз це, ймовірно, має більше сенсу. Плюс у всьому цьому в тому, що цей робочий процес просто існує. Тепер ви можете замінити свій stencil image, зберігаючи того ж персонажа, і продовжувати повторювати, експериментувати тощо. Мені дуже подобається, що це лише один приклад. Тут є безліч інструментів. Ви можете і, ймовірно, повинні розробити свої власні унікальні робочі процеси. Я знаю, що Kyber все ще готує, повертаючись до відеоігор на самому початку цього відео. Це навіть не моя остаточна форма. Це не спойлер. Будь-хто, хто працює в сфері AI, зараз на кухні. Але я буду стежити за Kyber і обов’язково повідомлю вам, коли вийде наступне велике оновлення.
Завершуючи наш огляд, ByteDance продемонструвала Phantom – об’єктно-узгоджене створення відео за допомогою міжмодального вирівнювання, яке зовсім не пишеться як Phantom. Спочатку це виглядає як звичайний генератор фото-відео одним кліком, яких ми бачили багато. Але коли ви копнете трохи глибше, то зрозумієте, що ByteDance, яка, нагадаю, володіє TikTok, насправді робить. На сторінці є епізоди, створені з відео, згенерованих Phantom. Давайте подивимося на “Привида опери”. І хоча мене не вражають результати, мені подобається ідея трьох-чотирьох посилань у сцені, яка генерується. Є ще один приклад, де вони переробляють Аннабель з фільму про моторошних ляльок, що підтвердить мою тезу про те, що незалежно від того, в якій культурі ви росли, моторошні ляльки викликають жах. Хоч я не можу бути впевненим, дивлячись це, я зрозумів, що ByteDance може робити з цим далі. Цілком ймовірно, що це буде призначено для Tik Tok shorts. Я не знаю, навіщо я сказав Tik Tok shorts. Чи є Tik Tok Longs? У будь-якому випадку, ідея полягає в тому, що ви можете взяти фотографію себе, трохи реквізиту та фотографії своїх друзів, а потім створити з них короткий фільм Tik Tok. Я не можу стверджувати цього напевно, але враховуючи багато чого, що ми бачили від ByteDance останнім часом, це цілком логічно, що це закінчиться там. Я буду стежити за цим, але я не надто сподіваюся. Знову ж – це ByteDance, тому ймовірність 50 на 50.
Ось і все на сьогодні. Цього тижня вийшло три відео, тому я піду подрімаю. Дякую за перегляд! Мене звати Тім.