Google випустив “банановий” AI, що безкоштовно перемальовує ваш світ: чи це нова революція?
Привіт! З вами Ліла Гарт. Минулого тижня мій знайомий розробник Google надіслав лише одне слово: “Банани “. Я ще не знала, наскільки глибоко це слово занурить мене у світ штучного інтелекту. Та, чесно кажучи, це було неймовірно круто, адже той “банановий” AI, як я його назвала, вже натякав на щось грандіозне. І ось, кілька днів тому, сенсаційна новина: Google не просто представив новий AI-редактор зображень, а, здається, випустив справжнього монстра, який може все. Найприємніше – він доступний практично всюди, без обмежень і, увага, абсолютно безкоштовно!
Це новини, від яких перехоплює подих, а пальці самі тягнуться до клавіатури. Коли мова заходить про AI-редагування, ми звикли до комбінацій “добре, але платно” або “безкоштовно, але посередньо”. А тут – інтригуюча обіцянка “дуже потужно, але безкоштовно і всюди”. Чи це справді так? Давайте розберемося, моя цікавість вже межує з одержимістю.
Секретний “Нано Банан”: як Google захопив лідерство
Все почалося досить загадково. Близько півтора тижня тому на арені AI-моделей, відомій як LM Arena [посилання], з’явився загадковий “Нано Банан”. Його результати були настільки вражаючими, що відразу ж виникли припущення: чи не Google стоїть за цим дивом? Ці припущення підкріплювалися тим, що співробітники Google почали активно публікувати емодзі бананів . Потім відбувся івент “Made by Google Pixel”, де натякали на щось новеньке для фоторедагування. І ось, нещодавно, довгоочікувана новина: “Нано Банан” – це насправді Gemini 2.5 Flash Image. Хоча назва мені не дуже, тому для себе я залишила “Нано Банан”.
І знаєте що найцікавіше? Ця модель дебютувала на першому місці LM Arena, показавши найбільший стрибок рейтингу в історії. Це означає, що на даний момент це AI-модель №1 для редагування зображень у світі. Здається, Google вирішив здивувати нас серйозно.
“Банановий” двигун: розмова з вашими фотографіями
Але що робить цей “Нано Банан” таким особливим? Це не просто черговий генератор картинок, на кшталт Midjourney чи DALL-E [посилання]. Це частина сімейства Gemini, а отже, використовує зовсім інший підхід. Він працює на основі “розмовного сегментування зображень”. Звучить складно? Поясню простіше.
Уявіть, ви дивитесь на фотографію чоловіка з парасолькою. Ви просто кажете AI: “Зроби так, щоб чоловік тримав у руці не парасольку, а книгу”. І він це робить! Як? Бо він не просто бачить “чоловіка” і “парасольку”. Він розуміє, що таке “рука”, “тримає”, “книга”. Він може виділити саме ту частину зображення, яку ви хочете змінити, навіть якщо це щось абстрактне, як “область, яку потрібно очистити”. Ваш “Нано Банан” розуміє, що це, скажімо так, “безладдя”, яке потребує виправлення. На відміну від ваших дітей .
Весь цей магічний процес, підкріплений потужним компонентом великої мовної моделі (LLM), дозволяє робити не просто базові редагування, а й складніші маніпуляції, використовуючи звичайну розмовну мову. І все це – дуже швидко.
Де ж ховається цей “банан”? Всюди!
Я вражена тим, наскільки широка доступність цього інструменту. “Шукаючий підхід” – це, напевно, найкращий опис.
- Gemini: Найпростіший спосіб для більшості – через додаток Gemini на вашому смартфоні або на сайті gemini.google.com [посилання]. Я поки не бачила його інтегрованим у Google Home, але, ймовірно, це станеться.
- Google AI Studio: Для тих, хто хоче заглибитися [посилання].
- Figma, Freepik, Leonardo.AI, Adobe Firefly: Так, навіть Adobe Firefly, про який ми говоритимемо пізніше цього тижня, вже інтегрував цей AI [посилання]. Це цікаво, адже Firefly – вже відомий гравець на ринку.
- API: Для розробників інтеграція через API коштує менше 4 центів за зображення. Це просто смішно дешево!
- LM Arena: Ви все ще можете використовувати його там і навіть через прямий чат [посилання]. Переконайтеся, що ви обрали саме 2.5 Flash Image preview.
І так, все, що ви генеруєте там, все ще безкоштовно завдяки “Нано Банану”.
Тест-драйв: що вміє “Нано Банан” у Gemini?
Я не могла дочекатися, щоб спробувати. Взяла звичайне зображення жінки на рожевому фоні і попросила: “Зміни колір сукні на зелений”. Результат? Просто чудово! Сукня стала зеленою, а жінка залишилася тією ж.
Є один нюанс – невеликий водяний знак внизу. Але це не проблема, бо ми можемо робити й інші речі. Наприклад, попросити: “Зроби вигляд зверху на жінку в зеленій сукні”. І ось вона, з того ж ракурсу, але вже з іншого кута камери. Вражає, наскільки точно AI зберігає всі деталі, навіть змінивши їхність, при таких кардинальних змінах.
А чи не “зрізав” Google функціонал порівняно з тим, що ми бачили в LM Arena? Я бачила теорії змови, але, чесно кажучи, я не думаю. Результати в Gemini та LM Arena виглядають майже ідентично. Можливо, є незначні відмінності в текстурному згладжуванні, але це може бути через безліч факторів, і я не буду над цим занадто перейматися.
Розмовний AI: коли твоє фото – твій співрозмовник
Мені дійсно подобається в роботі з Gemini його розмовний аспект. Я взяла фотографію Діамантової Голови (Diamond Head) на Гаваях і попросила: “Поверни камеру і покажи, що знаходиться через дорогу”. І знаєте що? AI не просто показав картинку, він ще й написав: “Цього місця насправді немає”. Це мило!
Але тут мене осяяло: а що, як спробувати розширити справжню фотографію? Зробила фото Діамантової Голови і попросила Gemini розширити його до співвідношення 2:1. Чесно кажучи, AI поки що погано справляється з правильними співвідношеннями сторін, але він додав трохи зверху і знизу, а також будівництво, якого на моїй фотографії не було. Виглядає так, ніби воно там завжди було.
Працювати з AI-редактором – це завжди дивна суміш захоплення та розчарування. Ось, наприклад, я попросила повернути камеру на 180 градусів. Результат мене просто збив з ніг – це був реальний вигляд Гаваїв! Але це точно не був 180-градусний поворот з берега. Це означає, що Gemini знає, де ми знаходимося, може генерувати правдоподібні, але вигадані версії міста, але досі не до кінця розуміє точні географічні координати в самому зображенні.
Де “Нано Банан” справді блищить
Загалом, модель чудово справляється, коли ви надаєте початкове зображення і починаєте “рухатися” в його середовищі.
- Заміна об’єктів: Ідеально працює, навіть коли справа доходить до персонажів. Мій друг, Алекс з Alex Gu Media, показав, як можна замінити будь-що [посилання].
- Аутпейнтінг (розширення зображення): Ще один сильний бік. Меттью Берман з YouTube навіть довів, що висадка на Місяць – містифікація, використовуючи цю функцію [посилання].
- Розмова з AI: Це неймовірно. Я попросила прибрати “світлову виточку” (light leak) з лівого боку зображення. AI спочатку відмовив, мовляв, “не можу створювати зображення реальних людей”. Я відповіла: “Але ж це AI-згенероване зображення!”. І він: “О, добре, давайте зробимо!”. Результат не ідеальний, але сам факт можливості “переконати” AI – це щось!
Зовнішні платформи чи Gemini: де краще?
Коли я спробувала використати “Нано Банан” на зовнішніх платформах, як-от Leonardo, Full, Freepik або навіть на Korek, я не помітила суттєвої різниці в моделі. Єдине, чого там бракує – це водяного знака. І, о диво, можна редагувати навіть Тейлор Свіфт, яка пече хліб (хоча результат не ідеальний, але головне – працює!) [посилання].
Але є одна річ, яка, здається, залишилася ексклюзивною саме для Gemini: мультиреференсність. Раніше, на LM Arena, можна було надати дві картинки – наприклад, варвар і елегантний чоловік у костюмі – та попросити створити зображення, де ці персонажі зустрічаються за кавою. Зараз це вже не працює. Але в Gemini це можливо! Уявіть, яке поле для творчості відкривається!
Що далі? Наш “банановий” квадрилогічний фінал!
Я вже зробила три відео поспіль про “Нано Банан”, але головне, що я хочу донести сьогодні: він вийшов! Він доступний для всіх, безкоштовний і, здається, безлімітний. Це найкращий сценарій.
Звісно, я продовжу експериментувати з цією моделлю, шукатиму найкращі поради та хитрощі, і ми обов’язково зробимо окремий, глибший огляд. Але поки що я просто щаслива, що цей інструмент став загальнодоступним.
Дякую, що були зі мною! Залишайтеся на зв’язку, і давайте разом досліджувати дивовижний світ AI!