Google Gemini 2.0: прорив у генерації та редагуванні зображень, або Photoshop, тремти!
Привіт, гіки та розробники! Casey Byte з вами, і сьогодні ми занурюємося в нещодавній вибух від Google, який обіцяє серйозно перевернути світ штучного інтелекту в області зображень. Здається, у Google зараз “shipping frenzy” (як влучно висловився автор відео), і вони щойно викинули на ринок дещо дійсно вражаюче – Gemini 2.0 для генерації та редагування зображень.
Багато хто вже кричить про “вбивцю Photoshop”, але давайте будемо трохи обережнішими. Так, це потужний інструмент, і він безкоштовний. Досить сказано, щоб привернути вашу увагу, правда? Тож пристібніться, ми розберемо все, що вам потрібно знати, що він може робити, чого ні, і як почати використовувати його вже сьогодні!
Multimodal Power: Gemini 2.0 бачить світ по-новому
В останньому оновленні Google наділив Gemini 2.0 справжньою мультимодальністю. Це означає, що він розуміє не тільки текст, а й зображення, аудіо та відео! Щоправда, поки що генерувати та редагувати він вміє лише зображення, але це вже величезний крок вперед.
Чому це так важливо? Тому що це дозволяє вам взаємодіяти з зображеннями, як ніколи раніше. Ви можете змінювати стиль, додавати об’єкти, міняти ракурси – і все це за допомогою текстових підказок.
Пам’ятаєте, як Dolly 3 так неявно натякали на можливість редагування зображень? Ну, Gemini 2.0 зробив те, що вони тільки обіцяли. Нарешті!
Google AI Studio: Ваша лабораторія для експериментів
Важлива деталь: ці нові можливості не доступні у звичайному Gemini. Вам потрібно перейти до Google AI Studio (посилання в описі!). Це платформа для прототипування та експериментів, тому вона трохи менш user-friendly, ніж професійні платформи. Але не хвилюйтеся, все не так страшно, як здається.
Що потрібно знати про AI Studio:
- Модель: Переконайтеся, що у вас активовано “Gemini 2.0 flat image generation” у налаштуваннях моделі.
- Ліміти: 10 запитів на хвилину і максимум 1500 запитів на день. Непогано, як на безкоштовний інструмент!
- Інтерфейс: Трохи менш інтуїтивний, ніж звичайні платформи, але після кількох експериментів ви швидко звикнете.
Тестування на практиці: Сила послідовності
Щоб побачити, на що здатний Gemini 2.0, почнемо з простого – генерації зображень. Пам’ятайте нашого хлопця в синьому костюмі з минулих тестів? Цього разу потяг висадив його на покинутій станції посеред пустелі.
Очевидно, що AI Studio використовує Imageen 3 в якості генератора зображень. І я мушу сказати, Imageen 3 вражає. Його послідовність у відповідь на підказки просто неймовірна, особливо коли йдеться про кінематографічні стилі.
Але справжня суперсила тут – це можливість продовжувати цю сцену за допомогою лише кількох простих підказок.
- Зворотний ракурс: “Створити зворотний ракурс, де ми бачимо спину чоловіка в синьому костюмі на передньому плані, а потяг від’їжджає на задньому плані.”
- Крупний план: “Крупний план нашого чоловіка в синьому костюмі, він виглядає стурбованим.”
Зауважте, що у нас все ще той самий хлопець, у тому ж стилі, приблизно в тому ж місці. А закінчується наша міні-серія голодним вовком, який дивиться на нашого нещасного героя. Здається, йому ніколи не щастить!
Це робить дуже простим взяти ці зображення і перенести їх у відеогенератор (наприклад, Luma labs) і створити короткий ролик.
Не тільки Imageen 3: Інтегруйте ваші улюблені інструменти
На щастя, AI Studio приймає будь-які зображення! Тож я взяв зображення Капітана Ренфілда, згенероване в mid-journey і просто попросив AI Studio дати мені альтернативний, але кінематографічний ракурс для цього зображення. Результат просто зводить з розуму!
Це той самий кадр, але з іншого ракурсу. Капітан Ренфілд залишається собою, фоновий персонаж теж, і додані деталі таверни виглядають приголомшливо. І я сказав “кінематографічний”, тому AI Studio просто відповіли “тримай тобі 21”. Дякую!
Звичайно, вихідне зображення тут дещо низької роздільної здатності. Але це не проблема, адже ви завжди можете взяти це зображення та перенести його в будь-який upscaler, щоб все виправити за мить.
Я продовжив з крупним планом Капітана Ренфілда, і отримав дуже якісний крупний план.
Обмеження: Не перегинайте палицю з ітераціями
Ось тут стає трохи складніше. Якщо ви починаєте занадто сильно розганяти модель (більше 3-4 поколінь), вона просто починає втрачати точність.
Наприклад, я попросив “додатковий кадр Капітана Ренфілда, який п’є з дерев’яної кружки”. Це не обов’язково погано, але, як бачите, ми вже починаємо втрачати деталі в текстурах, як на самій кружці, так і на дредах Капітана Ренфілда та текстурі шкіри.
Чому? Тому що AI Studio – це не повноцінна платформа, і вона не має “розсудливості” щодо інструкцій, які ви їй даєте. Вона просто тупішає.
Рішення? Почніть все спочатку з вашим початковим зображенням, щоб нагадати AI Studio, чого ви намагаєтеся досягти.
Крім того, у нього якась зворотна золота рибка в пам’яті. Я взяв це зображення і просто сказав “дайте мені цей кадр, але з лівого боку”. Він спробував, але також згадав: “Гей, хіба ми не робимо щось з цією дерев’яною кружкою?”
Хитрість: Правильно формулюйте підказки
Давайте перейдемо до кількох зручних хитрощів. Візьмемо цього хлопця, якому ви явно збираєтеся заплатити данину, перш ніж перетнути міст. Даємо йому підказку “фігура тримає великий меч”. І ми дійсно бачимо, як він тримає меч.
Не дуже задоволені результатом? Просто натисніть кнопку “Редагувати” і сформулюйте підказку по-іншому. Наприклад, “фігура в тій самій позі, але в правій руці він тримає великий меч”. І робимо ще одну спробу.
І вуаля! Наш хлопець тримає великий меч. Меч виглядає контекстуально до місця, освітлення правильне, все чудово.
Ще одна зручна річ, яку ми можемо зробити, це взяти це зображення і розгалузити його звідси. Це створить нову гілку, зберігаючи наші попередні ітерації.
Фотографії, відео і персонажі: Ідеї для використання
AI Studio чудово працює з реальними фотографіями. Ось фотографія Дурного Кота, про якого вже згадували на каналі багато разів. Цей кіт божевільний!
Даємо йому підказку “зробити коту помаранчеву шерсть”. І ось у нас Добрий Кіт. Хоча напевно цей кіт теж трохи дивний.
А ось де це стане дійсно корисним – використання цих зображень як ключових кадрів у AI-відео. Бій у AI-відео – це завжди катастрофа. І хоча я ще не набив руку, я думаю, що це проілюструє потенціал.
Починаємо з цього зображення, згенерованого в mid journey. Даємо йому підказку “Дайте мені наступну позу бійців у цій кунг-фу сцені”. Отримуємо це. Гаразд.
Потім, для третього зображення, я просто попросив жінку дати пас в груди чоловікові. Беремо ці кадри в Runway (здається, це єдиний відеогенератор, який дозволяє використовувати початковий, середній і кінцевий кадри) і даємо йому підказку “кінематографічна кунг-фу сцена, швидкий рух”. В результаті отримуємо щось на зразок цього.
Зізнаюся, не ідеально. Але з додаванням speed ramping і пресету “ручна камера”, ми однозначно отримаємо щось більш зв’язне, ніж звичайні AI-бої. Буду експериментувати з цим!
До речі, моя думка – це почати хореографію від першого згенерованого зображення. Думаю, це зменшить кількість розбіжностей у першому кадрі.
А ось де це просто переверне гру – створення навчених Lura-персонажів.
Наприклад, візьмемо це зображення рудоволосої войовниці, натхненної рудоголовою Сонею. Імплементуємо її і даємо підказку “Дайте мені вид ззаду на цього персонажа”. І ми дійсно отримуємо вид ззаду. Дайте мені вид збоку, дайте мені як цей персонаж біжить, дайте мені цього персонажа, який стоїть перед палаючим селом і в його очах помста. Очевидно, що ми можемо продовжувати отримувати безліч різних референсних матеріалів для цього персонажа, які потім можна привнести і навчити для узгодженого персонажа.
З мого невеликого досвіду я визначив, що AI Studio не дуже добре поєднує зображення. Наприклад, взявши це місце і додавши підказку “вона йде вгору стежкою з рішучістю в очах”, ми отримаємо результат, який не дуже хороший. Все працює, але не найкраще використання.
Проте, є ще безліч інших варіантів використання, і це змушує нас звернутися до публікацій спільноти.
Світ можливостей: натхнення від спільноти
Друг каналу і міжнародний чоловік-загадка Боазтодо просто приголомшив мене цим. Він взяв це зображення і запустив його через AI Studio, щоб отримати 3D-wireframes. Це просто неймовірно!
Звичайно, це не справжнє 3D-зображення. Але це показує, наскільки добре модель вміє розділяти об’єкти та розуміти сцену і глибину.
Віктор М мав супер круту ідею: він взяв кілька окремих спрайтів, передав їх AI Studio і сказав: “Зроби щось із цим, спічи мені щось”. І в результаті ми отримали рівень у грі!
Мінчов продемонстрував, що в AI Studio можна робити product replacement. Цікаво, що є кілька платних платформ, які спеціалізуються на цьому. А тепер ви можете робити це безкоштовно за допомогою Gemini 2.0.
Ківорк показує нам, що можна використовувати його для фіксування AI-рук. AI фіксує AI-руки – все логічно.
І нарешті, Йіш вказує, що AI Studio добре підтримує стилістичну послідовність. Наприклад, беремо ось цей ескізний стиль і просимо додати чоловіка, який працює за комп’ютером. І цей чоловік стилістично відповідає решті зображення.
Чесно кажучи, це тільки початок можливостей Gemini 2.0. Насправді, Testing Catalog виявила, що на нас чекає генерація відео. Вони також натякнули на те, що з’явиться функція Canvas. Звичайно, нас більше цікавить генерація відео. Вони відзначають, що вона може з’явитися від одного до чотирьох тижнів, виходячи з історичних тенденцій.
Я не знаю, як це все буде виглядати. Чи це буде модель Vo Turbo, яку ми бачили в YouTube Shorts, чи це буде повноцінна модель V2. Сподіваюся, це буде повноцінна версія, але подивимося. Як тільки з’явиться інформація, я відразу ж зніму відео.