Банановий бум: як витиснути максимум з нового “іграшки” Google та не зруйнувати світ
Привіт, друзі! На зв’язку Ліла Харт, і сьогодні поговоримо про те, від чого ви забудете навіть про ранкову каву. Останніми днями мій смартфон перетворився на захопливий музей бананових картинок, а мій мозок – на справжній банановий рай. Знаєте чому? Бо Google випустив Gemini 2.5 Flash, або, як його вже охрестили, “Нанобанан”. І повірте, це не просто черговий інструмент для створення картинок. Це щось, що або підкорить світ, або… принаймні, допоможе створити найкращий пікчер з вашим котом у космосі.
Я вже вп’яте поспіль записую відео про цей “нанобанан”, і починаю переживати за рівень калію у своєму організмі. Чесно кажучи, відколи він з’явився, я просто не могла відірватися. Я копала, досліджувала, читала офіційну документацію (так, я з тих диваків, які читають інструкції до програм). І сьогодні хочу поділитися з вами не просто технічними деталями, а тим, як змусити цей “нанобанан” видавати саме те, що ви хочете, і навіть більше. Ми пропустимо розмови про те, як ця модель працює – про це я детально розповідала у четвертому відео [посилання внизу]. Зараз зосередимося на тому, як змусити банан працювати на повну.
Банани на будь-який смак: огляд новинок для тих, хто не спить
Перш ніж повністю поринути у бананову ейфорію, є ще кілька новин, які не можна пропустити. По-перше, на платформі V3 (Flow) з’явилася функція швидких генерацій. І, що важливо, для “Ultra” підписників вони безкоштовні! Так, безкоштовні! Враховуючи, що V3 – задоволення не з дешевих, можливість “їсти досхочу” смачних генерацій за цією підпискою може стати вирішальним аргументом, щоб спробувати все. До речі, знижка 50% на три місяці за $124 ще діє, якщо ви раптом ще не встигли нею скористатися.
Ще одна цікавинка від V3 – так звані “референсні зображення”. Уявіть, що ви можете взяти фото свого улюбленого персонажа та “змастити” їх разом, щоб, наприклад, замінити орка на того ж самого хлопця. Це працює, але, швидше за все, це функція “інгредієнтів” або “міксера”, а не той самий “нанобанан”. Тому, хоч ще повернемося до V3, почнемо з бананів.
Якість має значення: чим відрізняється “нанобанан” від звичайного?
Поговорімо про якість. Раніше я припускала, що результати “нанобанана” через інтерфейс Gemini такі ж, як і через API. Але, коли починаєш копати глибше, особливо з допомогою таких уважних друзів, як Лііса (привіт, Ліісо!), стають помітні нюанси. Погляньте на ці два зображення. Вони схожі на Роуз на березі. Відпочила, мала багато місця на плоту. Але, насправді, різниця полягає у… стисненні.
Збільшимо трохи. Бачите? Зображення, згенероване через Gemini, доволі швидко втрачає якість. Для детальнішого порівняння ми повернемося до цього під час спонсорського блоку, адже це надзвичайно резонує з нашою темою.
Моя порада: використовуйте Google AI Studio, де ви отримуєте версію API (хоча, що дивно, з водяним знаком), або, що ще краще, скористайтеся LM Arena. Там прямий чат, і ви завжди отримуватимете результат від “нанобанана”. До речі, там все безкоштовно і, здавалося б, без обмежень. Хоча після певної кількості зображень мені довелося чекати 45 хвилин, перш ніж я змогла продовжити. Тож, якщо не хочете чекати, майте це на увазі.
Цікаво знати: Цей хлопець на зображенні – вам нікого не нагадує? Бачу в ньому щось від Джона Меєра та Тімоті Шаламе. Такий гарний, що може носити будь-що!
Зміна форматів: як не перетворити банановий сік на… банан?
Ще одна проблема, з якою стикаються багато користувачів – спроба змінити співвідношення сторін зображення. У вас є фото чарівника перед вогненною стіною. Ви просите зробити з 9×16 зображення 16×9, а вам у відповідь – те саме зображення, але з водяним знаком. Що ж робити?
Є просте рішення! Спочатку створіть навколо свого зображення порожню рамку. Можна використати Canva, або я використовую Adobe Express. Обидва безкоштовні і чудово впораються з цим завданням. Беріть своє зображення, потім дайте команду: “Розширити це зображення та видалити білий фон”. І вуаля! Отримуєте зображення 16×9. Можна навіть додати написи. Ось так все просто!
Секрети успішного промптингу: заглядаємо за лаштунки Google
Але найцікавіше – промпт. Іноді “нанобанан” може бути трохи… обмеженим. Спробуйте помістити згенерованого персонажа у реальне фото (ми використовували фото пляжу Вайкікі у попередньому відео). Результат, будемо відвертими, не дуже вражає.
Але, якщо заглянути в офіційну документацію Google, формат промпту може бути таким: “Використовуючи надане зображення об’єкта, додайте, видаліть або змініть елемент у сцені, забезпечивши інтеграцію зміни згідно з описом”. Звучить трохи сухо, чи не так?
На щастя, не обов’язково бути таким суворим. Мій друг Бренд Лінч зміг перенести стиль оригінального Мегатрона на зображення, використавши промпт: “Знято на плівку, костюмована репетиція з великим бюджетом”. І вийшло класно! Або, як показує Саймон, можна використовувати прості червоні стрілки. Це дозволяє створити свою версію Google Earth.
Головне – не бійтеся експериментувати! Нехай це буде щось на кшталт: “Хліб з часником дізнався жахливу правду, але ніколи її не розкаже. Будь ласка, тонко змініть зображення, щоб це відобразити”. І “нанобанан” видасть вам хліб, сповнений горя. Так, мене теж цікавить брошура “Культ хліба з часником”.
Отже, якщо вам потрібна певна структура промпту, не соромтеся її використовувати. Але головне – не припиняйте гратися!
Співпраця – це мистецтво: коли банани зустрічаються з космічними кораблями
Де “нанобанан” справді сяє, так це у створенні зображень з кількох референсів. Це схоже на функцію “міксера” у V3, але з більшою глибиною. Згідно з офіційною документацією, потрібно просто створити зображення, комбінуючи елементи з наданих фото, описуючи фінальну сцену. Результати, загалом, непогані. Але чим більше елементів ви додаєте, тим “розмитішим” стає результат, і модель втрачає контекст.
Є кращий спосіб! Тревіс Девіс пропонує: створіть “таблицю контактів” з усіма вашими елементами як одне зображення, а потім надайте його “нанобанану” з промптом, що просить їх об’єднати. І це працює! Уявіть: 10 елементів в одному зображенні. Виглядає вражаюче, чи не так? Всі 10 елементів на місці та виглядають дуже органічно.
Тож, єдиного правильного підходу до промптингу немає. Але, можливо, є кращий спосіб використовувати референсні зображення.
Чи ідеальний “нанобанан”?
Чи ідеальний “нанобанан”? Звісно, ні. Це ж штучний інтелект. Є моменти, де виникають труднощі – наприклад, зміна ракурсу камери. І тут у мене є шалений робочий процес, яким я хочу з вами поділитися. Але спочатку – невелика перерва на рекламу.
Recraft: ваш новий найкращий друг для роботи з зображеннями
Спонсор сьогоднішнього відео – Recraft. Якщо ви ще не знайомі з цим сервісом, то це платформа для генерації та редагування зображень, яка робить багато цікавих речей, і саме тут живе модель Red Panda. Я давно є прихильником Recraft [посилання на огляд платформи внизу].
Але багато хто не знає про можливість генерувати зображення на різних моделях. Не тільки Red Panda! Коли починаєте новий проєкт, просто зайдіть у вкладку “Моделі”, виберіть “Усі моделі” і потім “Зовнішні”. Тут відкривається список: Quen, Hydream, ideagram, три версії Flux (Pro, Dev, Max) і навіть моделі Google, зокрема Imageen 4 Ultra.
Головна новина – “банан” тепер тут! І, до речі, Recraft молодці, що назвали його “Нанобанан”, а не “Gemini 2.5 Flash Image”. Вони теж знають, що це “нанобанан”!
Одна з переваг роботи на Recraft – можливість згенерувати зображення, скажімо, як це: кінематографічне зображення шпигуна перед телефонною будкою вночі, у стилі 80-х. Це згенеровано на Image Ultra 4. Тепер, якщо хочемо внести зміни, просто міняємо модель на “Нанобанан”. Наприклад, видалимо машину і додамо “софтбол”. Вуаля! Машини немає. Це був “софтбол” для “нанобанана”, але є кілька моментів, на які варто звернути увагу.
По-перше, тут немає водяних знаків. По-друге, коли використовуєте Gemini, модель часто стискає ваші зображення. Тут отримуємо однаковий розмір файлу для обох зображень. Відредаговане зображення на 2 мегабайти легше за оригінал. Ймовірно, це вага тієї машини. Це набагато краще, ніж використовувати Gemini, де доведеться миритися зі стисненням зображення до 720p і зменшенням файлу до 1.3 МБ.
Recraft також має корисні функції: секцію “налаштування кольору” – як міні-Lightroom. І можливість вибіркового редагування інструментом “ласо”. Скажімо, вам не подобається цей хлопець на тлі. Просто виділіть його, і… він зникає. Це було б складно пояснити “нанобанану” текстом. А тут – раз! І немає.
Чесно кажучи, мені навіть трохи соромно. Цей хлопець, можливо, просто йшов додому, а тепер його більше не існує. До речі, я експортувала все як PNG. Також можна експортувати як JPEG, TIFF (з CMYK), що, звісно, збільшить розмір файлу, і навіть PDF! Це те, чого я раніше ніде не бачила.
“Нанобанан” чудовий, але має свої сліпі зони. Тому, коли щось йде не так, зручно спробувати на Flux, JPT або Quen.
Якщо ще не пробували Recraft, раджу зазирнути до них. У них є безкоштовний план з 50 безкоштовними кредитами на день. А професійний план коштує лише 10 доларів на місяць. Принаймні зареєструйтеся на безкоштовний план – це справді корисний інструмент, який варто мати під рукою.
Магія ракурсів: як змусити камеру обертатися?
Повертаємося до “нанобанана”. Ще одна проблема, про яку говорять користувачі, – розташування камери в сцені. “Нанобанан” чудово дотримується 180-градусного правила, що добре. Але спробуйте попросити його зробити крупний план персонажа, або, що важливіше, повністю повернути камеру. Часто він видає те саме зображення.
Я виявила, що це можливо, але потрібно бути конкретнішим. Наприклад, просто сказати: “Будь ласка, поверни камеру, щоб показати, що знаходиться за поточним видом” – не працює. А ось: “Будь ласка, поверни камеру, щоб показати інший бік лабораторії” – так! Або, коли не могла отримати поворот на певній локації, я почала просити про поворот камери біля дверей ліфта, і тоді він це зробив. Думаю, “нанобанану” потрібен якийсь об’єкт або ціль, щоб “націлитися” і обернутися.
Катастрофа чи тріумф: коли “нанобанан” зустрічається з VEO 3
Тепер найцікавіше – коли починаємо змішувати “нанобанан” з VEO 3. Натхненна постом Джастін Мур, яка використовувала “банан” для створення вітальні Pottery Barn, а потім у VEO 3 попросила “швидкий захопливий відеотур цією вітальнею з професійними кадрами”, я подумала: а що, як зробити космічний корабель?
І це, друзі, справді працює! Оскільки V3 розуміє світ, він може перенести нас туди, де промпт “нанобанану” був би складним. Таким чином, ми отримуємо віртуальний сет, який можна скріншотити, а потім “бананити” туди своїх персонажів. Я зробила швидкий тест сьогодні вранці [аудіо трохи лажає, але суть зрозуміла]:
звучить відео з космічним кораблем
Так, це працює! Скільки фонових відео я згенерувала? Багато. Але я експериментувала. І в цьому вся краса V3 fast – він безкоштовний (для Ultra підписників). Зберуся і зроблю щось більш відшліфоване, що займе більше 45 хвилин, і тоді ми пройдемося по всьому, що я дізналася, використовуючи цю техніку.
До речі, хтось у коментарях до минулого відео попросив мене сказати “підпишіться”. Тож… підпишіться! І ви знатимете, коли вийде наступне відео.
Також повернемося до цього нового “міксера” для генерації зображень. Виглядає цікаво. І якщо Google трохи розслабиться, подивимося, що ще відбувається у світі креативного штучного інтелекту.
На цьому, мабуть, все. Як завжди, дякую за перегляд. З вами була Ліла Харт.