Чи побачимо ми інтерактивну Елой у майбутньому ігор? Роздуми про експеримент Sony з AI та перспективи імерсивного геймінгу
Нещодавно в мережу потрапило відео з закритої AI-демонстрації Sony, де героїня Horizon Zero Dawn, Елой, стає інтерактивною. Реакція геймерської спільноти була неоднозначною. Одні висловлювали скептицизм, інші – сумніви щодо якості реалізації. Але чи справді цей експеримент є провісником революції в ігровій індустрії? І як ми можемо вже сьогодні покращити подібні AI-проєкти, використовуючи доступні інструменти?
Коротко для тих, хто не знайомий з всесвітом Horizon: це постапокаліптична франшиза PlayStation, розроблена Guerrilla Games, де головна героїня Елой бореться з роботами-динозаврами. Так, звучить дивно, але сюжет гри має напрочуд логічне обґрунтування цього дивного поєднання. Перша частина Horizon Zero Dawn справедливо вважається однією з кращих постапокаліптичних ігор останнього десятиліття. Використання Елой в AI-експерименті виглядає цілком логічним, адже Sony позиціонує її як важливу фігуру консолі PlayStation.
У витоковому відео Елой відповідає на запитання гравця, але з відчутною затримкою та дещо роботизованим голосом, що зовсім не схожий на голос акторки Ешлі Берч. Відомо, що для перетворення мови на текст використовували Open AI Whisper, а для генерації відповідей – великі мовні моделі Chat GPT та Llama. Тривала пауза між запитанням та відповіддю є наслідком затримки між цими моделями. Анімація обличчя, ймовірно, обробляється внутрішньою системою Sony Mocking Bird. Хоча демонстрація була запущена на ПК, директор з розробки програмного забезпечення Sony зазначає, що ключові частини системи можна запустити на PS5 з відносно невеликим навантаженням. Звісно, це не означає, що LLM буде локально працювати на вашій PlayStation 5, а скоріше виклики API до різних моделей.
Не варто очікувати подібних AI-функцій у Horizon найближчим часом, але ця демонстрація відкриває цікаві перспективи для майбутнього ігор. В одній зі сцен можна побачити, як інтерактивна Елой перетворюється на внутрішньоігрову, і, навіть попри низьку якість відео, видно рух її губ. Хоча інтерактивні діалоги можуть сподобатися не всім, не слід забувати, що одна з найбільших критик сиквелу Horizon стосувалася надмірної балакучості Елой.
А чи можемо ми створити щось подібне вже сьогодні?
Для створення власної версії інтерактивної Елой, перш за все, необхідно отримати якісний образ головної героїні. Існують різні AI-сервіси, наприклад, ca. a, які дозволяють натренувати модель на основі набору зображень. Що більше різноманітних зображень ви завантажите, то кращі результати отримаєте. У цьому випадку, використовуючи обмежену кількість зображень, було створено базову модель, здатну генерувати зображення Елой. Після тренування моделі, можна використовувати промпти, наприклад, “Елой стоїть у печері з синім та помаранчевим підсвічуванням”, щоб отримати бажане зображення. Отримане зображення можна покращити за допомогою AI-апскейлера, такого як Magnific, який додасть реалістичності текстурам шкіри, волоссю та відблискам в очах.
Щодо голосу, тут ситуація складніша. Використання голосу Ешлі Берч потребувало б значних фінансових витрат з боку Sony. Тому кращим варіантом є створення власного унікального голосу для персонажа. У цьому може допомогти сервіс Hume, зокрема його функція Voice Designer. Hume Octave не лише відтворює текст, але й розуміє його контекст, що дозволяє створювати більш емоційні та реалістичні монологи. З Voice Designer ви можете детально описати, яким ви хочете, щоб звучав голос вашого персонажа, і зберегти його для подальшого використання. Hume пропонує безкоштовний тарифний план з обмеженим обсягом символів.
Далі використовуємо Chat GPT, щоб уявити себе Елой та відповісти на запитання. Згенерований текст перетворюємо на голос за допомогою Hume, а потім використовуємо сервіс hedra для синхронізації губ з аудіо. Hedra нещодавно запустила Character 3 Model, яка демонструє високу якість синхронізації губ. Завантажуємо зображення Елой, аудіофайл, і отримуємо відео з Елой, яка відповідає на запитання.
Звісно, демонстрація Sony є інтерактивною, що працює на базі гри. Але гілки між генеративним AI та ігровою розробкою стають все ближчими. Незабаром, можливо, ми побачимо AI NPC у реальному часі.
Залишається сподіватися, що ця технологія буде розвиватися і стане доступною масовому користувачеві. Можливо, ми нарешті дізнаємося історію про те, як хтось отримав стрілу в коліно.