Коли Нано-Банани Зустрічають Агентів у 3D: Свіжі Віяння в Штучному Інтелекті
Часом, дивлячись на стрімкий розвиток генеративного ШІ, ловиш себе на думці: “Це вже справді майбутнє!”. Саме такі відчуття виникають кожні кілька місяців, коли з’являється щось настільки вражаюче, що відчуваєш дотик до прогресу. Сьогодні поговоримо про дві такі новинки. Перша – Marble від World Labs, про яку я вже згадував, тепер доступна для всіх з купою покращень і приємною ціною. Другий “кит” – нещодавнє дослідження Google: Sema 2. Уявіть собі агента, що живе у 3D-світі, виконує ваші команди та вчиться. Звучить дико? Готуйтеся, бо це так і є.
Ну що, готові до технологічної пригоди? Поїхали!
Marble: Віртуальний Світ, який можна створювати, змінювати та оживляти
Я пам’ятаю, як вперше показав вам Marble. Це було щось на кшталт створення віртуального сету для короткометражки “Alarm”. За 40 секунд я показав, як рухати камерою, вибирати ракурс, зробити скріншот, і ось уже в кадрі з’являється персонаж, доданий постобробкою. World Labs відзначили це, створивши кейс про мене. Приємно, хоч і трохи хвилююче – я вперше став “піддослідним кроликом” у дослідженні. Добре, що не медичному!
Цікаво знати: Marble використовує Gaussian splats для створення 3D-середовищ. Простіше кажучи, це набір інформації про кожен піксель, що дозволяє моделі розуміти простір та зберігати цілісність. Ось чому, якщо ви відвернете камеру від подушки, а потім повернетеся, вона не зникне. На відміну від деяких інших моделей.
Але чому саме Marble? За цим стоїть доктор Фей-Фей Лі, яку називають “хрещеною мамою” ШІ. Вона висунула тезу: сучасні мультимодальні LLM (моделі, що працюють з різними типами даних – текстом, зображеннями, звуком) бачать і чують, але не розуміють, як влаштований світ. Її есе про “просторовий інтелект” як основу мислення – це дійсно революційно, і саме її ідеї лягли в основу Marble. Це як коли дитина вчиться ходити: спочатку переставляє ноги, а потім розуміє, як тримати рівновагу, обходити перешкоди та взаємодіяти з оточенням.
Майстерня Творчості: Нові Можливості Marble
З моменту останнього знайомства з Marble, там відбулося стільки всього, що голова йде обертом! Це вже не просто інструмент, а ціла майстерня, яка підходить кожному, незалежно від рівня знань у 3D.
- Текст або зображення в 3D: Як і раніше, ви можете описати словами або показати картинкою, що хочете бачити, і Marble створить це.
- Магія багатьох зображень: Тепер можна використовувати до чотирьох зображень одночасно, щоб “зліпити” з них унікальне середовище. Це як міксувати інгредієнти для найкращого борщу!
- Редагування – це просто: Хочете перетворити середньовічну таверну на нічний клуб чи стендап-майданчик? Немає проблем! Редагуйте текстом, зображенням чи навіть 3D-об’єктами. Двоє “джентльменів” з бананами в залі? Чому б і ні!
- Для 3D-гуру: Якщо ви дружите з 3D, можете створювати середовища з нуля за допомогою примітивів. Я, зізнаюся, з 3D не в ладах, але навіть я зміг злегка “погратися” з цим.
- Розширюйте горизонти: Раніше було обмеження на розміри простору, але тепер ви можете їх збільшити. Це поки що трохи “капризне”, але результат вражає.
- Відео – це реальність: Нарешті! Можна експортувати відео та навіть покращувати його прямо на платформі.
Текстом до світу: або як банановий статуй з’явився у таверні
Спробуємо з текстовим запитом: “середньовічна таверна”. Marble миттєво починає творити. Натискаємо “Advanced editing”, і відкривається ще цікавіша вкладка. Спочатку ми отримуємо 360-градусну панораму. Тут не можна рухатись, але можна вносити зміни. Я вибрав ділянку і попросив додати “великий мармуровий статуй банана”. І що ви думаєте? З’явився статуй… здається, навіть двох бананів! escalated, як то кажуть. Після цього, натиснувши “generate world”, ми отримуємо повноцінний 3D-світ, куди можна увійти та роздивитися все зблизька.
Гумористичне застереження: Пам’ятайте, це Gaussian splats. Вони не бачать того, що позаду. Так що, якщо ваш банан стоїть спиною до стіни, то за стіною – порожнеча. Але є способи це обійти, про які поговоримо згодом.
Міксуємо зображення: коли дві картинки стають світом
Я взяв два зображення, створених в Midjourney, і використав їх як референси. Marble з’єднав їх так, що коли ви дивитесь в один бік – бачите перше зображення, повертаєтесь – друге. Деякі “бічні вулички” були порожніми, що наводить на думку: чотири зображення можуть дати ще більш детальний і об’ємний світ.
Камера їде: анімація та відео
Це те, чого всі чекали. Тепер можна записувати відео! Ви обираєте точку, ставите ключовий кадр, рухаєте камеру, ставите ще кадр – і все! Marble створює анімацію. Спочатку вийшло трохи хаотично, але коли я продовжив рух і зробив анімацію довшою (до 20 секунд), результат став набагато кращим. Камера рухається плавно.
Цікаво знати: Хоча є можливість покращувати відео прямо на платформі, є одне “але”: покращення працює тільки для відео до 10 секунд. Якщо вам потрібен повний контроль, можна експортувати в Blender чи Unreal Engine. Зізнаюся, мені ці складні інструменти здаються трохи “темним лісом”.
Навіть якщо ви не 3D-майстер: Canvas та робота з нодами
Але круто те, що навіть якщо ви не розбираєтесь у 3D, є інструмент Canvas. Він може здатися страшним, але дозволяє “зшивати” різні середовища. Я взяв два старі середовища, одне наклав на інше, використав щітку, щоб “стерти” зайве, і отримав… ну, це було не ідеально, але я зміг об’єднати два світи! Це доводить, що навіть без глибоких знань 3D, можна почати експериментувати. Зараз варто починати знайомитися з такими процесами, бо все так швидко змінюється.
Важливо: Навіть якщо вам не подобаються ці “дошки з нодами”, де все переплетено, як нитки в бабусиному килимі, розуміти, як працюють різні інтерфейси, – надзвичайно важливо в нашій динамічній сфері ШІ.
І найголовніше – ціна! Marble можна спробувати безкоштовно: 7000 кредитів та 4 генерації світу. А про-план зараз коштує всього 1 долар за перший місяць. Це просто неймовірно вигідно!
Design Arena: Ваш шлях до ідеального контенту
Коротка зупинка для нашого спонсора – Design Arena. Якщо ви, як і я, витрачаєте багато часу, перемикаючись між різними сайтами для генерації зображень, відео чи роботи з текстом, то Design Arena – це те, що вам потрібно. Вони створили не просто лідерборд, а справжнє “ігрове поле” для логотипів, зображень, відео, навіть цілих сайтів.
Ось приклад: беремо стандартний промпт “чоловік у синьому діловому костюмі йде по жвавому міському тротуарі”. Design Arena показує нам два варіанти, створені різними моделями, але ми не знаємо, хто є хто – це “сліпий тест”. Мені більше сподобався варіант ліворуч, хоча чоловік там виглядає так, ніби от-от перебігатиме дорогу перед машиною. Як виявилося, лівий варіант створив Claude 2.5 Turbo Pro (який я віддав перевагу), а правий – Sora 2.
Цікаво знати: За результатами таких голосувань формується найбільший у світі лідерборд згенерованих ШІ візуалів. А система рейтингу ELO, яка використовується тут, насправді була розроблена для шахів, а її автор був не лише шахістом, а й професором фізики!
Але це ще не все! Design Arena має функцію відео-до-відео редагування. Беремо нашого “чоловіка в костюмі” і просимо зробити з нього “нічну кінематографічну сцену”. І так, це спрацювало! Хоча один з варіантів вийшов трішки в стилі кіберпанк, але головне – результат є. Краще впоралася модель DALL-E 3 (хоча в відео названа vase), яка змогла змінити день на ніч, тоді як Hunan (ймовірно, щось з OpenAI) – ні.
Перевірте Design Arena за посиланням у описі – це безкоштовно, і точно стане в пригоді.
SimA-2: Агент, що навчається у 3D-світі
Тепер переходимо до Google Deepmind та їхнього дослідження SimA-2 (Scalable Instructible Multi-world Agent). Ми вже бачили SimA-1, коли з’явився Genie 2. Це був агент, якому можна було давати прості команди в ігровому середовищі: “йди за будинок”, “повернись”, “підійди до сходів”.
Але SimA-2 – це вже інший рівень. Йому дали “мозковий трансплантант” (схоже, з Gemini), і тепер він не просто виконує команди, а сам вирішує, як досягти поставленої мети в 3D-світі. Це вже не просто гра в Minecraft чи No Man’s Sky, це крок до розуміння світу.
Чи стане він вашим ідеальним напарником у шутерах? На 100% – ні. Його успішність – близько 65%, тоді як у людини – трохи більше 75%. Але порівняно з SimA-1 (31% успіху в грудні 2024 року), це подвоєння успішності менш ніж за рік! Вражає.
Найцікавіше починається, коли SimA-2 потрапляє у світ, створений Genie 3, про який він нічого не знає. Йому доводиться самостійно розбиратися. Це як коли ви потрапляєте в абсолютно нове місто без карти.
Ось ви бачите, як SimA-2 отримує інструкцію “йди до лавки”, і він шукає шлях. Але тут починається справжня магія та плутанина. Gemini, Genie 3, SimA – всі вони працюють разом. Але як саме? Це друга загадка.
Проте, навіть у цей чудовий симбіоз він не позбавлений “галюцинацій” ШІ. Наприклад, був там морський черепаха, що плив. Потім він опинився біля коралів, і команда “пливи вперед” перетворила його на… камінь чи якусь інопланетну істоту на дні океану. Він все ще може “забувати” те, що було раніше.
Хоча Genie 3 має хорошу “візуальну пам’ять” (до хвилини), SimA-2 має відносно коротку пам’ять про свої взаємодії. Йому все ще важко даються довгі, комплексні завдання, що вимагають багато кроків і перевірки. Якщо ви думали, що SimA-2 самостійно пройде весь Skyrim за вас, то він забуде про головні квести десь на півдорозі. Я сам часто так роблю…
Чому це важливо: Розуміння реального світу
SimA-2 – це крок до навчання ШІ розуміти наш реальний світ, де правила можуть змінюватися будь-якої миті, і де ми самі часто не знаємо всіх правил. Я згадав розмову з головою Microsoft AI, Мустафою Сулейманом. Він колишній менеджер магазину морозива! І коли я спитав його, куди рухаються відеомоделі, світові моделі та LLM – чи справді ми йдемо до Голодеку (як у Star Trek)? Він лише посміхнувся і сказав: “А які ще є варіанти?”
Тож, готуйтеся, майбутнє вже тут, і воно буде схоже на Ready Player One.
Підсумовуючи, ми бачимо дві неймовірно потужні розробки, що змінюють правила гри. Marble дає нам безпрецедентну свободу у створенні та модифікації 3D-світів. A SimA-2 робить крок до створення ШІ, який розуміє, як функціонує наш світ, що важливо для майбутнього робототехніки, ігор та інших сфер.
Що далі? Не бійтеся експериментувати! Спробуйте Marble, дослідіть Design Arena. Пам’ятайте, що навіть якщо ви не фахівець у 3D, ці інструменти стають все більш доступними. Почніть знайомитися з новими технологіями, бо саме вони формують наше завтра. Світ ШІ рухається з шаленою швидкістю, і найкращий спосіб бути на його хвилі – йти в ногу з ним, а ще краще – випереджати!
У результаті, маємо:
- Marble: Надійний інструмент для роботи з 3D-середовищами, доступний і потужний.
- SimA-2: Інтелектуальне зернятко, що росте в цифрових лісах, обіцяючи майбутнє, де ШІ буде не просто виконавцем, а партнером.
І пам’ятайте: кожен новий день – це новий шанс дізнатися щось неймовірне. Тож занурюйтесь, вивчайте, творіть!







