Ігри розуму: Google вражає “Нано Бананом Про” – чому це важливо для кожного
Привіт, друзі! З вами Ліла Гарт, і сьогодні – свято. Відчуття, ніби Новий рік настав трохи раніше, адже Google піднесла нам подарунок, на який ми всі так довго чекали. І ні, це не “Нано-Банан 2” (хоча знаю, що дехто теж його чекав!). Це – “Нано Банан Про”. Щойно отримавши можливість протестувати цю модель, можу сказати одне: приготуйтеся, буде цікаво!
Останні дні я буквально поринула у можливості “Банана Про”, випробовувала його на міцність, вивчала сильні та слабкі сторони. І знаєте що? Я не просто заглибилася в технічні деталі – мені вдалося поспілкуватися з людиною з команди DeepMind, яка працює над цим дивом. І у мене є інсайти, яких ви ніде більше не почуєте. Тож, давайте відкинемо сумніви, розгорнемо цей “банановий” лист і перейдемо до суті.
Від “Банана 2” до “Банана Про”: що змінилося?
Ви не помилилися. Новинка “Нано Банан Про” з’явилася майже одразу після релізу Gemini 3. Це як у нас: тільки відсвяткували одну подію, а вже готуємося до наступної! Для тих, хто не в темі, “Нано Банан Про” – це, по суті, еволюція “Нано Банана 2”, але не варто думати, що це просто покращена версія. Хоча офіційна назва – Gemix 2, всі знають його як “Банан Про”. І це не просто ще одна графічна модель. Це – модель, яка мислить. І це вже зовсім інший рівень.
Хоча я мала ранній доступ, мушу зізнатися, він був можливий лише через Gemini. Тепер же “Нано Банан Про” доступний для всіх. Радійте, бо він буде скрізь: в AI Studio, у новому “антигравітаційному” InFlow (це окрема історія!), і, звісно ж, через API [посилання на API]. Готуйтеся, ваша цифрова реальність щойно отримала нові фарби.
Перевірка на міцність: вино, пелікан і… VR-шолом?
Я не була б собою, якби не протестувала новинку на наших улюблених тестах. Згадайте, як ми перевіряли келих для вина та аналоговий годинник? Отож, “Банан Про” впорався ідеально: келих повний. Мені, звісно, довелося трохи підкоригувати час на годиннику – 2:55. Бо, погодьтеся, 11:15 – ще надто рано для такої кількості вина, навіть для великих поціновувачів!
Але це лише розминка. Ми ж знаємо, що справжнє випробування – це коли все одразу! Отож, наш старий добрий тест із пеліканом, який їде на велосипеді (так, це вже стало своєрідним мемом!), але тепер зі всіма прибамбасами. Пелікан, велосипед, келих вина, 2:55 дня… і, вишенька на торті, VR-шолом! Це вже для моїх друзів з Black Forest Labs, щоб було не надто просто. І що ви думаєте? “Банан Про” не просто впорався, він зробив це з гідністю!
Широкі горизонти: Нові співвідношення сторін і магія аутпентингу
Що ще нового? Тепер ми можемо створювати зображення в різних співвідношеннях сторін – від звичних 16:9 до квадратних 1:1, і навіть 4:3. Але хто любить нудьгувати, коли можна додати перцю? Можна експериментувати з чимось на кшталт кінематографічної вестерн-сцени у співвідношенні 72! Так, ви не помилилися, саме 72. Це як намагатися пояснити вибір музики під час довгої поїздки – завжди знайдеться той, хто скаже: “А чому б і ні?”.
Але найцікавіше – це аутпентинг. Тепер можна розширювати вже існуючі зображення, граючись зі співвідношеннями. Уявіть: наша улюблена “дівчина з вогнеметом” (так, ви знаєте, про кого я!) тепер може опинитися в кінематографічних кадрах зі співвідношенням 1:4:1. Результат? Ну, скажімо так, це вийшло… цікаво. Дівчина трохи перестаралася з вогнеметом, але хто я така, щоб її зупиняти? Вона ж з вогнеметом!
Стиль – це все: від реальності до віртуальності
Щодо генерації зображень “з нуля”, то “Банан Про” став кращим, але, чесно кажучи, мене ніколи не вражали його можливості саме як генератора. Однак у нього є одна надзвичайно сильна сторона – перенесення стилю.
Ви, мабуть, бачили кадри з майбутньої екранізації Legend of Zelda? Я не могла пройти повз! Чи вдасться нам перенести атмосферу кіно у візуальний стиль відеогри? І уявіть собі – так! Зображення вийшло на диво крутим, навіть з елементами інтерфейсу гри. Хоча, мушу зізнатися, іноді модель трохи “замилюється” і не видає точної копії. Ось, наприклад, на цьому кадрі – вона зрозуміла, що я хочу, але точної пози, виразу обличчя – ні.
Але це, можливо, проблема тестування в Gemini, де часом контекст “губиться”. Я намагалася отримати текстуру для нашої вестерн-сцени, використовуючи скріншот з “Якось на Дикому Заході”. І що вийшло? Наш п’яний пелікан на велосипеді якимось чином влізає в цей контекст, і результат… ну, це мистецтво. Я б назвала це “Артом”. Серйозно.
Але іноді цей “дрейф контексту” призводить до чогось неочікувано класного. Як от, коли я намагалася згенерувати сюрреалістичну картинку, а туди “залетіла” наша дівчина з вогнеметом. Будемо про це говорити трохи згодом, але є місця, де “Банан Про” справді летить. Наприклад, коли ви просите показати протилежний бік кімнати, маючи лише одне зображення. Це геніально для створення віртуальних декорацій.
Магія простору: створюємо віртуальні світи
Уявіть: у вас є зображення локації, і ви просите модель показати, що знаходиться на протилежному боці кімнати. Це відкриває неймовірні можливості для створення різноманітних сцен. Можна взяти нашу локацію, додати персонажа (навіть старенького, згенерованого ще в RunwayML [Посилання на RunwayML]), посадити його за барну стійку, налити вина (так, знову вино!) – і ось перед нами вже ціла історія. Чи ж попросити персонажа перейти до того ж бару.
Але справжня перемога “Банана Про” для мене – це можливість взяти одну локацію, додати двох персонажів, розставити їх по сцені, а потім… перемістити камеру на протилежний бік кімнати! І це не просто “паперовий ляльковий” ефект, коли персонажа просто перевертають. Ні! Ми бачимо продовження фону, сцену з іншого ракурсу. Це фантастично! Наш головний герой, що був праворуч, тепер опиняється ліворуч – і це правильно, це порушує 180-градусне правило, яке ми так добре знаємо. Це розв’язує одну з найбільш болючих проблем генерації – ефект “перевернутої фотографії”.
Текст – нова гра: комікси з нічого!
А тепер – про те, що мене просто підірвало. Це робота з текстом. Комбінуйте це з можливістю генерувати мистецтво, і ви отримуєте… комікс! Я взяла випадкову сторінку з коміксу, який сама написала (і навіть випустила – посилання в описі [посилання на комікс]), скинула її в “Банан Про” і попросила згенерувати комікс у співвідношенні 2:3.
Результат? Це було варто побачити. Текст, бабли з репліками – все на своїх місцях. Навіть деталі збереглися. І це лише на основі сценарію! Звісно, є дрібні нюанси. Іноді модель додавала ім’я персонажа перед реплікою, ніби машинально читаючи сценарій. Але знаєте, що найсмішніше? Модель сама додала рукописний лист від Джокера з повідомленням “Двом покидькам. Дякую за м’язи”. Цього не було в сценарії! Це – чиста магія.
Орієнтири та спогади: зображення як джерело натхнення
Ще одна цікава функція – мультиреференсне зображення. Хоча, зізнаюся, моя порада – краще комбінувати ваші референси в одне зображення. Модель може використовувати до шести, але чим більше ви їй даєте, тим більше вона може “заплутатися”. Я навіть не знаю, хто автор цього приголомшливого прикладу (якщо ви це читаєте – дякую!), але він демонструє, як комбінування референсів дає кращий результат.
Отож, мої перші враження від “Банана Про”? Він має свої плюси і мінуси, але ми тільки на початку шляху. І хоча Google стверджує, що немає різниці між використанням “Банана Про” у Gemini, InFlow чи через API, я відчуваю, що різниця є. Тож я продовжу вивчати, де саме ця модель розкривається найкраще.
Розмова з майбутнім: інтерв’ю з DeepMind
А тепер – найцікавіше. У мене була нагода поспілкуватися з Ніколь Брітовою, яка очолює напрям зображень та відео в DeepMind. Ми обговорили, як працює “Нано Банан”, як він інтегрується з Gemini 3 та V3, і, найголовніше, яке майбутнє чекає на цю модель.
Ліла: Ніколь, одна з найзахопливіших речей у цій моделі – це її здатність візуалізувати інформацію. Текст став набагато кращим, ніж будь-коли. А як щодо її здатності розуміти 3D-простір? Чи має модель внутрішню концепцію 3D-простору?
Ніколь: Ми значно виграємо від прориву в загальному мультимодальному розумінні Gemini 3. Це величезний крок вперед порівняно з попередніми версіями. Особливо це стосується генерації, коли розуміння і генерація об’єднуються в одній моделі.
Ліла: З нашого погляду, здається, що DeepMind випускає стільки інноваційних моделей: “Нано Банан Про”, Gemini 3, V3… Чи є зв’язок між їхніми архітектурами? Чи є плани об’єднати їх усі?
Ніколь: Наша мета – це Gemini, модель, яка охоплює всі модальності. Але це складно. Наприклад, для Genie потрібен реальний час, а для кінематографічних відео… це не обов’язково. Ми рухаємося до єдиної моделі, але шлях ще довгий. Подумайте, ще рік тому ми й не мріяли про таке візуалізування інформації чи рендеринг тексту.
Ліла: А чи був “кетчуп” якоюсь реальною назвою? Я трохи турбувалася цим.
Ніколь: сміється Я не знаю, що сталося з “кетчупом”. Це не було справжньою назвою.
Ліла: видихає з полегшенням Чудово! Щодо інтерфейсу, чи очікуєте ви еволюцію? Чи залишиться він текстовим? Чи стане більш просторовим, в реальному часі?
Ніколь: Є багато можливостей для розробки інтерфейсів. Простий текстовий запит – це добре, але голос – це недооцінена модальність. І, звісно, інтуїтивніші інструменти. Можливо, не “зв’язки” (nodes), як ви згадали, але щось більш інтерактивне.
Ліла: І коли ж нарешті буде вирішена проблема консистентності, особливо у відтворенні персонажів?
Ніколь: У цій генерації консистентність для персонажів значно покращилася. Ми можемо підтримувати до п’яти персонажів з досить непоганою стабільністю. Але досконалості ще далеко.
Ліла: І останнє, більш “езотеричне” питання: яка “північна зірка” “Нано Банана”?
Ніколь: Навколишній світ сповнений візуальної інформації – газети, книжки, журнали. Текст і візуальні елементи завжди йдуть разом. Тож нам потрібно досягти неперевершеної точності, фактографічності та релевантності. Ви повинні мати змогу вивчати будь-що за допомогою візуальних матеріалів, налаштованих саме під вас. Це наша головна мета.
Висновок: Банан, який змінив правила гри
Ось така захоплива подорож у світ “Нано Банана Про”. Ми побачили, як Google перетворює складні технології на інструменти, якими може користуватися кожен. Від вишуканих келихів вина до повноцінних коміксів – потенціал цієї моделі просто вражає.
Що далі?
- Спробуйте самі! Якщо у вас є доступ до Gemini, обов’язково протестуйте “Нано Банан Про”. Не бійтеся експериментувати, запитувати несподівані речі.
- Слідкуйте за новинами. Технології розвиваються блискавично. Ця модель – лише початок.
- Діліться своїми відкриттями! Посилання на комікси, цікаві генерації, навіть на ваші “художні артефакти” – все це допомагає нам разом рухатися вперед.
Підсумовуючи все вище сказане, “Нано Банан Про” – це не просто оновлення. Це крок до нової ери створення контенту, де межі між реальністю та цифровим світом стають все тоншими. Він ставить перед нами питання про творчість, про наш зв’язок з технологіями і про те, як ми можемо використовувати ці інструменти для розширення нашої уяви.
Тож, нехай ваш “банан” завжди буде стиглим, а ваша творчість – безмежною! До нових зустрічей, друзі!







