Google Cloud Next: Творчий Шторм та Приховані Скарби
Google Cloud Next завершився, залишивши по собі калейдоскоп анонсів, немов розсип барвистих конфеті. Нові TPU, розширення можливостей Gemini 2.5, агенти на основі штучного інтелекту – здавалося, Google намагався охопити все й одразу. Але моя увага, звісно, зосередилася на творчій стороні AI, на найсвіжіших оновленнях Imagen 3 (або Imagine 3, як його називали зі сцени) та новому генераторі музики. Чи вдалося Google приготувати щось справді смачне? Можливо. Але щоб отримати свою порцію, доведеться трохи попрацювати.
Загалом, подія від Google, як і очікувалося, була здебільшого орієнтована на корпоративний сектор. Значна частина презентацій стосувалася платформи Vertex, яка використовується для інтеграції API Google в бізнес-рішення. Проте, відбулося декілька справді захопливих анонсів у сферах відео, зображень та аудіо. І, так, Vertex доступний для всіх. Немає нічого, що зупиняло б вас від його використання, і, що цікаво, ви можете генерувати контент безкоштовно. Хоча, тут є один нюанс, позначений зірочкою, про який я розповім трохи згодом.
Перш за все, хочу згадати невеликий, але дуже крутий анонс, який Google зробили напередодні події. Google став частиною команди, що працює над перенесенням класичного фільму 1939 року “Чарівник країни Оз” у сферу (Sphere). Цей проєкт мене заінтригував. Він включає в себе збільшення роздільної здатності оригінального фільму до 16K з використанням нової функції V2 – outpainting, щоб створити більш захопливий досвід, яким славиться Sphere. Крім того, V2 використовується для створення виступів персонажів, яких могло не бути в кадрі в оригінальному фільмі.
Важливо зазначити, що Google був не єдиним інструментом, використаним для перенесення фільму у Sphere. Серед інших компаній були Topaz, Adobe After Effects, Nuke та Maya. В результаті вийшов проєкт, який важить вражаючі 1,2 петабайти даних. Щоб ви могли оцінити масштаб, типовий 120-хвилинний фільм у 4K, показаний в кінотеатрах без стиснення, становить 5,75 терабайт. Тож, так, петабайт – це значно більше.
Переходячи безпосередньо до презентації Google Cloud Next, компанія зробила акцент на широкій доступності Gemini 2.5. Я не буду надто заглиблюватися в деталі LLM, але мушу зізнатися, що останнім часом я досить активно користуюся 2.5. Фактично, вона стала моїм основним LLM.
У сфері творчих інструментів ми отримали анонси і нові функції для V2 Imagen 3, Chirp 3 (інструмент синтезу мовлення, щось на зразок 11 Labs) та Lyra, нового генератора музики на основі AI. Google підкреслив, що це робить їх єдиною платформою, яка “нативно” підтримує відео, музику, зображення та мовлення. Втім, це не зовсім так, як може здатися, оскільки все це побудовано на платформі Vertex. Наразі це не інтегровано безпосередньо в Google Gemini або AI Studio, на що я сподівався. Але, принаймні, це все ще доступно. У мене є для вас і хороші, і погані новини щодо цього.
Щодо Lyra, генератора музики, багато хто, мабуть, подумав, що Google вирішив кинути виклик Yio та Sununo. Але, як виявилося, не зовсім. Lyra генерує 30-секундні пісні… ну, я б навіть не назвав їх піснями, скоріше джинглами. Вони всі інструментальні, наскільки я бачив. І, судячи з їхніх ключових слів, таких як “підвищення впізнаваності бренду” та “оптимізація створення контенту”, вони не націлені на створення “вибухових” хітів. Як приклад, вони навели запит “високооктановий бібоп”, акцентуючи на запаморочливих соло саксофона і труби, а також на інших подібних ключових словах. Ось що вийшло.
Я не буду надто суворим до цього. Якість звуку досить пристойна. А якщо вам потрібна тема для ток-шоу 1979 року, ви знаєте, де її знайти.
Imagen 3 також отримав оновлення. Google відзначив покращену деталізацію, багатше освітлення та менше артефактів. Тепер ми можемо редагувати зображення безпосередньо в Imagen 3. Ось порівняння з Imagen 2, де демонструється видалення мікрофона на зображенні. Очевидно, що результат Imagen 3 виглядає набагато краще.
Також був представлений Chirp 3 – синтез мовлення з можливістю миттєвого створення власних голосів. Щоб навчити його, потрібно всього 10 секунд аудіо. Це досить круто.
Але найбільше мене зацікавили нові функції V2. Я неодноразово заявляв, що V2, принаймні зараз, є найкращою моделлю перетворення тексту у відео. Функція перетворення зображення у відео також значно покращилася. Існують цікаві хитрощі, які можна з нею використовувати. Хоча я завжди вагаюся назвати будь-яку модель найкращим відеогенератором, оскільки будь-яке оновлення може змінити лідера, я повинен сказати, що V2 дуже хороший. Проблема, звичайно, полягає в ціні. Але у нас є невелика обхідний шлях, про який я розповім за мить.
Тим часом, щодо нових функцій, у нас тепер є inpainting у V2. Як бачимо, є оригінальне відео з хлопцем, що висить на тросі. За допомогою магії V2 inpainting цього хлопця тепер можна змусити літати в повітрі. Не знаю, чому вони обрали це як приклад, тому що результат із видаленою упряжжю просто виглядає як дивне AI відео. Незабаром ми розглянемо це детальніше. Очевидно, ми також можемо змінювати співвідношення сторін, переходячи від 16:9 до 9:16. Це вже було продемонстровано на Runway. І, загалом, виглядає досить добре. З небом відбуваються дивні речі, але рухомий фон виглядає чудово. І, що цікаво, враховуючи, що джерело світла надходить з цього боку, тінь падає правильно. Тож, чудова робота.
У V2 також з’явилися елементи керування камерою. Тут ми бачимо попередньо встановлену камеру, що панорамує вправо, а потім здійснює наїзд. Загалом, виглядає досить добре. У цьому немає нічого надзвичайного, оскільки ми вже бачили це, наприклад, у режимі режисера Miniax.
У нас також є перший і останній кадр у V2. І хоча я знаю, що це не надто вражаюче, і, по суті, більшість цих оновлень – це функції, які ми вже бачили на інших платформах, приємно бачити, як V2 оновлюється, щоб отримати ці якісні функції.
Ось ще декілька речей, які я помітив у презентації, але яких не було в документації. По-перше, тепер можна подовжувати відео, додаючи ще 6 секунд до відео. V2 зараз виводить 8 секунд, тож загальний обсяг виводу збільшується до 14 секунд. Це досить добре. Майте на увазі, що вони також впровадили SynthID – технологію, вбудовану у відео, яка непомітна для людського ока, але вказує на те, що відео згенеровано AI. У мене немає з цим проблем.
Також був огляд інструментів, доступних у наборі для відео inpainting та outpainting. Очевидно, тут є кисть, гумка, інвертування (що цікаво), завантаження маски та вилучення. І схоже, що там є маленька людина, тож щось на зразок миттєвого зеленого екрану. Загалом, досить хороші оновлення.
Недоліком є те, що все це доступно лише на платформі Google Vertex. І хоча платформа Vertex може здатися трохи складною, насправді все не так вже й погано. Реєстрація безкоштовна, і ви отримуєте 300 доларів США у вигляді API кредитів, які можна використовувати безкоштовно. Але, як ми побачимо за мить, вам, можливо, навіть не знадобиться витрачати ці безкоштовні гроші.
Повертаючись до поганих новин, щоб отримати доступ до нових елементів керування редагуванням і камерою V2, вам потрібно бути в списку дозволених. Вам потрібно заповнити форму Google і сподіватися, що ви отримаєте доступ. Те саме стосується Lyra. Для мене це не має великого значення. Я думаю, що продовжу використовувати Deforum або Rifusion.
Повертаючись до Vertex, все, що вам потрібно зробити, щоб почати, – це перейти до Media Studio. Це відкриє вам можливість генерувати зображення, аудіо, музику або відео. Знову ж таки, принаймні зараз, ви не можете генерувати музику, поки вас не внесли до білого списку. З відео, здається, все гаразд. Давайте використаємо один із запитів, який я використовував для свого продовження “Мосту”, і запустимо його. V2 16:9, зробимо чотири восьмисекундні відео. І вам обов’язково потрібно переконатися, що в налаштуваннях безпеки ви дозволили “тільки для дорослих”, щоб генерувати людей. Ви не можете генерувати дітей. Ви можете генерувати… ну, дорослих, я думаю. Тож давайте запустимо це і подивимося, що вийде.
Через кілька хвилин ми отримаємо чотири результати. І, так, ми зараз у космосі. Ті, хто критикував і казав: “О, це типова фентезійна річ”, ви не знаєте, куди це все йде. І знову ж таки, я повинен сказати, враховуючи, що це не найскладніший запит у світі, якість V2 вражає.
Важливо зазначити, що якщо ви підете цим шляхом, вам обов’язково потрібно завантажити свої результати. Я не думаю, що вони десь тут зберігаються. Тому, просто про всяк випадок, обов’язково збережіть їх. Але, що більш важливо, наразі, принаймні, як ви можете бачити, я заявив про свої 300 доларів безкоштовних пробних кредитів. І ми все ще на нулі доларів. Я створив п’ять-шість відео і кілька зображень. Тому, схоже, вони не стягують плату, якщо ви не використовуєте їх як API. Якщо ви просто генеруєте контент на Vertex для тестування, я думаю, вони просто дозволяють вам це робити безкоштовно. Я не знаю, як довго це триватиме. Тож обов’язково заходьте і спробуйте, поки є можливість. Обов’язково стежте за своїми витратами на випадок, якщо все зміниться. Я не хочу, щоб ви втратили купу грошей.
І хоча ця версія, принаймні, може не мати доступу до перетворення зображення у відео або inpainting, це не означає, що V2 не є потужною моделлю. Я створив цілий короткометражний фільм, використовуючи цю версію. Тому що це велика версія V2, а не приглушений турбо режим, який ми бачили в YouTube Shorts.
Цікава річ, яку ви можете спробувати з V2, використовуючи Gemini. Я взяв цього персонажа, згенерованого Midjourney, і вставив її в похмурий пляжний фон. Це було зроблено досить погано. Освітлення абсолютно неправильне, персонаж просто приліплений зверху фону. Але, використовуючи Gemini 2.5, я взяв це зображення і просто сказав: “Створи мені запит V2 для цього зображення”. І він згенерував запит. Запустивши його, ми отримали ці результати. Це не зовсім той самий персонаж, але вражає, яку кількість деталей він підібрав із фону. З точки зору контексту, він зрозумів, хто цей персонаж. І, здебільшого, це один і той самий персонаж у всіх чотирьох поколіннях.
Зрештою, суть Vertex полягає в API викликах і створенні власної платформи. Це може бути цікавою ідеєю. Замість того, щоб підписуватися на безліч сервісів, ви можете просто створити свій власний. Чи буде це економічно ефективним? Індивідуально, ймовірно, ні. Але якщо ви, скажімо, студія або невелика рекламна агенція, ви можете заощадити трохи грошей, оскільки можете все налаштувати.
Тим часом, для тих із нас, хто більше на домашній студії, нікому не кажіть Google, але, мабуть, печиво відкрито. Знову ж таки, я не знаю, як довго це триватиме. У Google зараз триває захід, і є велика ймовірність, що вони можуть про це просто забути. Але я завжди працюю з припущенням, що найкраще слово на літеру F в AI не триває вічно.
Очевидно, відбувається безліч інших речей. Я спробую повернутися пізніше цього тижня з іншим відео. Зараз багато чого відбувається. Дякую за перегляд.