Злий банан, що втік: або чому новий AI-генератор змінює правила гри

    Минулого тижня мій друг-розробник, який постійно буркотить про “нейронки” та “парадигми”, надіслав мені посилання з єдиним словом: “Банан”. Спершу я подумав, що це нова притча про помилки в коді, але, відкривши, побачив… ну, “витік” найновішої розробки Google. І це був доволі кумедний “витік”, адже цей “банан” виявився не просто картинкою, а цілим новим баченням того, як штучний інтелект може створювати зображення.

    Ви, напевно, чули про цей “банан”. Він, як нестримний жовтий вихованець, вислизнув із секретних лабораторій Google та тихенько просочився в мережу. Навіть назву йому дали не надто серйозну: Nano Banana. Звучить так, ніби: “Ой, дивіться, маленький бананчик випав з кишені!”. Але за цією кумедною назвою ховається щось дійсно потужне. І мені, як вашому дядькові-техноблогеру, який любить пояснювати все, ніби ми сидимо за горнятком запашної кави, просто не терпиться вам про це розповісти.

    Цей “банан” – це майбутнє, або принаймні його дуже яскравий шматочок. Він вже виглядає так, ніби може перевернути всю індустрію генерації зображень. Принаймні, такі враження склалися після того, як я роздивився, що ж там цікавого приховано за цими “витоками”. А оскільки Google – це той ще “банан, що витікає”, то новини про його секрети розлітаються шалено.

    Приготуйтеся, бо зараз ми розберемося, чому цей “несерйозний банан” може бути серйознішою справою, ніж здається на перший погляд. Дізнаємося, чим нова версія відрізняється від старої, які секрети ховає загадковий Gemini 3 і чи варто вже хвилюватися тим, хто працює з візуальним контентом. Бонус: кілька слів про круті новинки від FLUX 2, Magnific, Leonardo та Freepik. Тримайтеся міцніше, адже це буде захоплива подорож у світ, де бананчики можуть бути небезпечно розумними!


    Розділ 1: Загадковий “банан” та його небезпечні родинні зв’язки

    Почнемо з головного героя нашої історії – того самого “банана”. Деякі джерела вже охрестили його Nano Banana 2, інші – GemPix 2, а хтось вкидав версію, що це, можливо, “Ketchup”. Так, ви не помилилися. Google, схоже, обожнює гратися з назвами, наче дитина з кубиками. Але, як би ми його не називали, суть залишається: це нова версія потужного генератора зображень від Google, і чутки про його реліз ширяться вже давно.

    Найцікавіше, що останні витоки, які вдалося піймати пильним поглядам (особливо людям з ресурсу testing catalog, їм респект!), натякають на те, що за цим “бананом” стоїть ні хто інший, як Gemini 3 Pro. І хоча точна дата релізу залишається туманною, цифра “112025” у згадках про “Gemini 3 Pro preview” наводить на думку про листопад (11-й місяць), а цифри 2025 – якийсь інший формат дати, можливо, 20-25 листопада. Або ж це просто випадковий збіг чисел, як часто буває з великими корпораціями. Але ми точно знаємо, що Gemini 3 готується до випуску десь між серединою листопада та груднем. І саме він, схоже, буде “серденьком” цього нового “банана”.

    Найсмішніше (і найгірше для тих, хто любить порядок) – це те, як ціGoogle’івські “банани” постійно “витікають”. Ніби хтось забув добре закрити кришку холодильника, і з нього потихеньку виповзають найцікавіші розробки. Так сталося і цього разу. На нетривалий час модель випадково стала доступною через API-платформу під назвою media.io. Я, чесно кажучи, про таку платформу раніше й не чув, але кількість згенерованих зображень, які почали з’являтися в мережі, дуже красномовно вказувала на неї – на нового “банана”. Цей “витік” тривав лише кілька годин, і доступ вже відкликали. Тож, якщо ви зараз зайдете на media.io, то швидше за все, нічого не побачите, крім стандартного набору. Але за цей короткий проміжок часу декілька щасливчиків встигли “погратися” з новим інструментом. І саме їхні перші спроби ми зараз і розглянемо.

    Цікаво знати: “Витік” технологій – не завжди погано. Іноді це дозволяє спільноті побачити майбутнє раніше, ніж воно офіційно настане, та дати розробникам цінний зворотний зв’язок. Хоча, звісно, Google, напевно, хотів би краще контролювати процес.


    Розділ 2: Банановий клаптик завдань: чи готовий новий “банан” до виготовлення ідеалів?

    Ну що ж, давайте подивимось, що там “напекли” ці ранні користувачі. Чи справді нова версія “банана” настільки крута, як обіцяють? Перший тест, який завжди ставав каменем спотикання для більшості генераторів, – це виклик із годинником та келихом вина. Здавалося б, що тут складного? Запит: “11:15 на годиннику та келих вина, наповнений до верху”.

    І тут наша нова “зіронька” показала себе з найкращого боку! Вона видає саме те, що просили: годинник показує 11:15, а келих – повний. Це, звісно, може здатися дрібницею, але спробуйте задати той самий запит будь-якому іншому генератору зображень (скажімо, версії 4 від Midjourney, яку зараз просувають як Imagine 4), і побачите, що келих буде ледь наповнений, а годинник показуватиме щось типу 10:10. Навіть попередня версія “банана”, яка працює на Gemini, видавала щось таке, ніби келих тримали під час землетрусу. Тож у цьому простому, але важливому тесті Nano Banana 2 (або як там його) демонструє значний прогрес.

    Але найважливіше, що нам повідомили про цей прогрес, – це новий багатоетапний процес генерації. Грубо кажучи, він працює за принципом “сумніви – це погано”. Перед тим як показати вам фінальний результат, він проводить внутрішній аналіз свого ж творіння, виявляє помилки та виправляє їх. Це як та досвідчена бабуся, яка перед тим, як подати вам пиріг, ще раз перевірить, чи добре він пропікся, чи не підгорів. Або, якщо бути точнішим, як той ревнивий чоловік, який, перед тим як піти на роботу, тричі перевіряє, чи добре закриті двері, чи не забула дружина вимкнути праску. Ну, ви зрозуміли – він сам себе перевіряє!

    Подивимося на ще один приклад: генерація автомобіля-конвертибла. Попередній “банан” (Nano Banana 1) тут, м’яко кажучи, не вразив. Моделька на капоті робила якісь дивні гімнастичні трюки, кермо було вивернуте навиворіт, а заднє скло… ну, воно теж виглядало так, ніби його встановили для іншого автомобіля. Нічого доброго.

    Але тепер – о диво! – Nano Banana 2 видає майже ідеальний результат. Одометр показує правильні цифри, кермо – на своєму місці і навіть має приємну шкіряну текстуру. А дзеркало заднього виду нарешті дивиться у правильний бік і навіть показує “дзеркальне” зображення! Всі ці деталі, які раніше були для AI недосяжними, тепер стали звичайними.

    Ось ще один цікавий приклад – зображення, натхненне фільмом “П’ятий елемент”. Nano Banana 1 видав щось таке, що можна назвати ілюстративним фотореалізмом. А ось Nano Banana 2 – чистої води фотографія! Звісно, тут теж є нюанси. Наприклад, незрозуміло, чому “прибулець” (чи хто це там) сидить без ременя безпеки, але це, як то кажуть, нюанси. А ось реактивний ранець, який висить в повітрі… хто знає, може, це така футуристична модель вертольота, та й хто я такий, щоб судити?

    Йдемо далі. Цей тест показує, наскільки добре модель розуміє контекст. Її попросили перетворити зображення робота з аніме “Макросс” (або “Роботек”, залежно від того, яку версію ви дивилися – це окрема історія, довжиною в три години!) на “лайв-екшн” версію. І що ж ми отримали? Ну, актори другого плану виглядають трохи шаблонно, але головний робот… Так, це він! Найцікавіше, модель не просто розпізнала робота, а й знала, що він трансформується в літак! З першого зображення, де робот стояв, вона змогла згенерувати саме той літак, у який він перетворювався. Це вже не просто генерація, а розуміння певних зв’язків та знань про всесвіт.

    І це тільки початок. Новий “банан” також чудово справляється зі стилізацією. Візьмемо старенький скріншот з Crash Bandicoot 1 (так, той, що ще з PS1) і попросимо його “переробити” до високої якості. Результат? Зображення, яке виглядає як гра наступного покоління, але вже для PlayStation 5. А ось вам і версія Grand Theft Auto: Vice City, зроблена за тим же принципом. Перед тим, як ми отримаємо GTA 6, ось вам його “ідейний попередник” у кращій графіці.

    І ось особливий бонус: ви бачите, наскільки потужним може бути LLM (велика мовна модель), коли він працює в парі з генератором зображень. На прикладі панелі з манґи, система не просто її розфарбувала, а й переклала! Це вже не просто картинки, це цілі історії, які оживають.

    А ще, здається, новий “банан” навчився розуміти 3D-простір. Хоча тінь від об’єкта виглядає трохи дивно, це дрібниці, які легко виправити. І, як вишенька на торті, він може вирішувати математичні задачі! Я, звісно, не математик, щоб перевірити правильність обчислень, але якщо це так, то це вже зовсім інший рівень. Деякі з вас, до речі, можуть бути прискіпливими до деталей, як я, коли справа доходить до гітарних акордів чи пальців на грифі. Щодо гітарних акордів – цей AI справді добре розставляє пальці. Навіть кількість пальців на двох руках – п’ять і п’ять, що теж не завжди гарантовано!


    Розділ 3: “Кетчуп” чи “банан”? Тайний код та план Б

    Ми так захопилися “бананами”, що ледве не забули про одну важливу деталь. Ходять чутки, що всередині Google цю модель можуть називати не “Nano Banana”, а “Ketchup”. Так-так, “Кетчуп”. Чому? Ну, поки що це лише здогадки. Можливо, це просто тимчасовий код, як це часто буває. Або, можливо, це натяк на щось інше. Особисто я сподіваюся, що вони не дійдуть до рівня “Nano Tomato”, бо я вже запланував близько 40 бананових каламбурів, і вони всі якось зачіпають саме “бананову” тему.

    А коли ж нам чекати на офіційний реліз, запитаєте ви? Я, як ви зрозуміли, продовжуватиму називати його Nano Banana 2, доки мене не примусять силою. Але, за останніми даними, станом на 11 листопада, 6:20 ранку, вже проводиться “темний запуск”. Це означає, що модель вже десь розгортається, можливо, для бета-тестування, або ж для запуску на різних платформах, де виставляються показники ефективності (ті самі ELO-рейтинги).

    Ось маленьке, але важливе застереження. Поки ви чекаєте, будьте дуже обережні з платформами, про які ви ніколи не чули, але які раптом починають рекламувати доступ до “Nano Banana 2”. Не бійтеся звертатися до офіційних джерел. Наприклад, відповідь від Логана Кілгора з DeepMind, яка чудово підсумовує ситуацію: “Довіряйте лише офіційним каналам”.

    Я, зрозуміло, триматиму руку на пульсі та повідомлю вас, як тільки “банан” офіційно вийде з “розплідника”. Сподіваюся, нам вдасться побити рекорд п’яти відео поспіль, як це було з Nano Banana 1. Хоча, чесно кажучи, я не знаю, чи зможу я пережити ще чотири таких “бананових” релізи поспіль.


    Розділ 4: FLUX 2: Скора возлюблена, або просто “Чорний ліс”?

    Але новини на цьому не закінчуються! Переходимо до наступної цікавинки: Black Forest Labs готує до випуску свою нову модель – Flux 2. Інформації поки що не так багато, але очікується, що вона буде доступна як на їхньому “ігровому майданчику” (playground), так і через API.

    Аналітики з testing catalog підловили момент, коли Flux 2 Pro генерував зображення з роздільною здатністю 1216 на 832 пікселів. Чи це ті зображення, що ми бачимо зараз? Складно сказати, але виглядають вони, мушу визнати, досить добре.

    Ось перший офіційний (або принаймні напівофіційний) погляд на Flux 2, завдяки Робіну Ромаху з Black Forest Labs: пелікан у VR-окулярах. Дизайн, звісно, дещо… екстравагантний, але давайте подивимось на деталі. Відблиски на дзьобі виглядають чудово, текстура пір’я – дуже реалістична. Це, можливо, не найсерйозніше завдання для AI, але це вже крок вперед. Будемо спостерігати за цією “чорноліською” розробкою!

    Ось ще один цікавий момент, який я згадав, коли був на Adobe MAX. Я там розмовляв з представниками Black Forest Labs і запитав їх про їхню модель для відео. Вони якось так… усміхнулися і сказали: “О, ця сторінка досі на сайті?”. Це вже дало мені зрозуміти, що не варто чекати на їхній відеоінструмент найближчим часом. Цікаво, що після нашої розмови вони оновили сайт, і, схоже, цієї сторінки більше немає. Можливо, я навіть доклав руку до того, щоб її зняли. Тож, якщо ви чекали на відео-модель від Black Forest Labs, то, як то кажуть, “не тримайте повітря в легенях”.


    Розділ 5: Швидкі новини: Mystic v3, камери Freepik та Блокноти Leonardo

    Рухаємося далі до блискавичних повідомлень, які можуть вас зацікавити.

    Magnific та Mystic v3: Бренд Magnific випустив оновлення свого інструменту Mystic до версії 3. Я завжди був шанувальником Mystic, і перші враження від нової версії доволі позитивні. Здається, він став ще крутішим, особливо у роботі зі шкірними тонами. Проте поки що він доступний лише на сайті Magnific, а не на Freepik. Я обов’язково зроблю окреме відео про нього, але поки що перші враження чудові.

    Freepik та “Камера”, що повертається: Freepik запустили нову функцію “Camera Angles” (Кути камери), яка, на мою думку, є дуже цікавим рішенням. Звісно, вона використовує “murder board” (дошку для планування), яка не всім подобається (і цей відеоролик, чесно кажучи, трохи “сжжутований”), але суть ось у чому: вона бере об’єкт з зображення та створює з нього 3D-бокс. І ви можете крутити його, змінюючи ракурс. Це дозволяє генерувати зображення персонажа під різними кутами, що може бути корисним для створення ефектних перших чи останніх кадрів. Хоча я знаю, що не всі люблять ці “вузлов’язані” інтерфейси, але, схоже, це саме той напрямок, куди рухається вся індустрія.

    Leonardo та “Блокноти”: Для тих, хто не надто любить “murder board”, Leonardo має щось своє. Вони представили нову функцію “Blueprints” (Блокноти). Це, по суті, готові шаблони дій або робочі процеси, які можна застосовувати до будь-якого зображення або для створення відео. І, що найцікавіше, ви можете створювати власні “блокноти”. Я, до речі, давно обіцяв зробити огляд Leonardo, тож це буде короткий огляд.

    Серед доступних шаблонів є все, що завгодно: від генерації відео для продуктової реклами до “миттєвого анімування” та редагування зображень (in-and-out painting). Я вирішив спробувати один з них на нашій улюбленій “дівчині з вогнеметом”, обравши шаблон “Класний переосвітлений світанок” (Cool Sunrise Relight). І ось результат: наша дівчина тепер стоїть на тлі приголомшливого вечірнього неба. Забарвлення вийшло чудовим. А ще я спробував “outpaint” – і тепер вона стала частиною ультраширокої панорами! Це просто фантастика.

    Серед інших корисних “блокнотів” є створення рекламних макетів (pop-up логотипу на об’єкті) та навіть видалення тексту, що, я думаю, багатьом сподобається. Тож, якщо ви давно не заглядали в Leonardo, раджу це зробити.


    Висновок: Банановий рай чи просто новий етап?

    Ну що ж, друзі, здається, ми підійшли до кінця нашої бананової епопеї. Ми побачили, наскільки далеко зайшли технології генерації зображень: від кумедних “витоків” і “бананових” назв до складних багатоетапних процесів, які аналізують і виправляють самі себе. Нова модель Google, як би її не називали – Nano Banana, GemPix 2 чи Ketchup – демонструє вражаючий стрибок вперед. Вона виправила помилки минулих версій, навчилася тонких деталей, розуміє контекст і навіть, схоже, запам’ятовує цілі всесвіти.

    Ми також побачили, що інші розробники не сплять. FLUX 2, Mystic v3, нові інструменти в Freepik та Leonardo – все це свідчить про те, що ринок AI-генерації зображень продовжує бурхливо розвиватися. І хоча деякі з цих інструментів використовують складні інтерфейси, мета одна – зробити процес творчості більш доступним та потужним.

    Що ж робити тепер?

    1. Слідкуйте за релізами: Тримайте вухо на пульсі. Як тільки Nano Banana (чи як там його) офіційно вийде, спробуйте його самі. Не бійтеся експериментувати!
    2. Вивчайте нові інструменти: Не зупиняйтеся на досягнутому. Якщо ви працюєте з графікою, відео чи просто любите створювати, досліджуйте нові можливості, які надають Freepik, Leonardo та інші платформи.
    3. Будьте критичними: Пам’ятайте, що AI – це інструмент. Він чудовий, але він не замінить людську креативність та критичне мислення. Завжди перевіряйте результат і вдосконалюйте його.

    Підсумовуючи все вище сказане, ми стоїмо на порозі нової ери у створенні візуального контенту. “Витоки” та “банани” – це лише попередження про те, що чекає на нас попереду. Технології стають розумнішими, потужнішими та, сподіваюся, більш доступними. Це захопливий час для всіх, хто так чи інакше пов’язаний зі світом дизайну та візуалізації.

    І пам’ятайте, навіть якщо вам здається, що це все надто складно, згадайте, як колись було складно навіть намалювати просту лінію. А тепер комп’ютери роблять це за нас. Так само і з цими потужними AI-інструментами. Потрібно лише трохи терпіння, цікавості та, звісно, бажання творити.

    Дякую, що були зі мною цього разу. Скоро побачимося!

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x