Відео оживають: Як Google навчив ШІ керувати камерою постфактум, і чому це змінює все

    Привіт, друзі! Сьогодні я розповім про дещо, що вразило навіть мене, а когось, можливо, змусить повірити в дива. Коли я вперше почув про нове оновлення Google для їхньої системи генерації відео Veo (або VO3), подумав: “Ну, знову ці байки”. Але, побачивши це на власні очі, зрозумів – це не просто чергова фішка, це справжній прорив. Уявіть: ви створили відео за допомогою ШІ, а потім, вже після того, як воно готове, можете змінювати кут камери, додавати рух, ефектно наближати чи віддаляти об’єкт. Не вірите? Я й сам не вірив, поки не спробував.

    Минулого тижня мій знайомий, який давно у світі ШІ-генерації, надіслав мені повідомлення: “Уяви собі, Google випустив просто шалене оновлення для VO3. Можна контролювати камеру після того, як відео створене”. Я відповів: “Повірю, коли побачу”. І от, ми побачили. Сьогодні зануримося у цю нову функцію, розберемося, на що вона здатна, і як далеко ми зможемо її “розтягнути”. Готові? Тоді поїхали!

    Нова функція Veo 3.1: Коли минуле стає пластичним

    Почнемо з головного. Google зробив щось неймовірне для своєї системи Veo (VO3). Вони дали змогу змінювати положення камери та її рух після того, як відео було згенеровано. Це як машина часу для вашого відео!

    Перш ніж пірнати глибше, кілька деталей. Це, так би мовити, експериментальна функція. Вона ще сира, в бета-тестуванні, тому будьте готові до “дивацтв”. Другий момент, який може не всім сподобатися: функція зараз доступна тільки на платформі Flow, і тільки для передплатників Ultra.

    Але є й хороші новини! Протягом наступних двох тижнів функція безкоштовна. Тобто, ви можете спробувати її, не витрачаючи жодного кредиту. До речі, на момент запису відео, їхня акційна пропозиція з Google Ultra за $124 на місяць все ще діє. А якщо врахувати, що з Veo 3 Fast ви можете генерувати відео скільки завгодно, то це, чесно кажучи, непогана пропозиція.

    Як працює ця нова магія? Вона розбита на дві секції. Перше – ви можете взяти будь-яке згенероване відео. На жаль, імпортувати відео у Flow поки не можна. Я вже спілкувався з командою щодо відео-до-відео функцій, вони обіцяли додати це в майбутньому, тож будемо чекати. Але поки що – беріть те, що вже є.

    Далі, знаходимо значок олівця (це для редагування) – і вас перекидає в цей новий модуль. Тут є опції: “позиція камери” та “рух камери”.

    У “позиції камери” маємо: “вгору”, “вниз”, “ліворуч”, “праворуч”. О, і ще “ближче”, “далі” та “стаціонарна камера”. Не можу не згадати про “Кодамі” (Konami code)… хто знає, той зрозуміє .

    У секції “рух камери” – “орбіта вгору, вниз, ліворуч, праворуч”. Так, я не міг не зробити це: “А-А-БА!” . Ще є “долі ін” (приближення), “долі аут” (віддалення), і комбінація “долі ін, зум аут” та “долі аут, зум ін”. Це, по суті, той самий ефект “Зоряних Війн” або “Щелепи” – знаменитий “вертиго” ефект.

    Тестуємо нову функцію: Коли ШІ співає, а коли – “кашляє”

    Щоб розібратися, як це працює, візьмемо для прикладу ось цей кадр. Це відео, згенероване текстом. Ось воно “в оригіналі”:

    “Я ціную в тобі це, Джеймсе. Дуже професійно. Але пам’ятай, у бізнесі смерті потрібно знаходити час, щоб трохи пожити.”

    А ось що буде, якщо ми в секції “позиція камери” оберемо “вниз”?

    “Я ціную в тобі це, Джеймсе. Дуже професійно. Але пам’ятай, у бізнесі смерті потрібно знаходити час, щоб трохи пожити.”

    Це вражає! Ми отримали ту саму гру актора, тільки з іншого ракурсу. Просто дивовижно.

    А тепер спробуємо з рухом камери. Візьмемо стару генерацію – це наша “періодична драма” про закоханих, які зрозуміли, що живуть у симуляції. Пам’ятаєте, ми тоді ще писали текст прямо на першому кадрі?

    Оригінал:

    “Останні кілька днів з тобою здавалися мені… як життя в симуляції.
    “Я почуваю те ж саме. Якщо ми – це лише промпти, то я не думаю. Я хочу одружитися з тобою.”

    Тут є “долі ін” (наближення). А що, як ми спробуємо зробити зворотний рух – “долі аут” (віддалення)?

    “Останні кілька днів з тобою здавалися мені… як життя в симуляції.
    “Я почуваю те ж саме. Якщо ми – це лише промпти, то я не думаю. Я хочу одружитися з тобою.”

    І, звісно, з ефектами “долі аут, зум ін” та “долі ін, зум аут” (той самий “вертиго” ефект, як у “Щелепах”). Довелося спробувати!

    “Боже мій, це ж торнадо з акул! Може, навіть акулячий НАТО!”

    А ось як це виглядає з нашим новим ефектом:

    “Боже мій, це ж торнадо з акул! Може, навіть акулячий НАТО!”

    Наш “вертиго” ефект вийшов трохи… німецько-експресіоністським. Але, загалом, це працює. Хоча ці два конкретні ефекти я б використовував обережно.

    Коли все працює, і коли – “летить шкереберть”

    Під час тестів я зрозумів, що ця “експериментальність” – не просто слова. Коли функція працює, вона вражає. Але коли вона не працює, ви отримуєте старі “класичні” глюки ШІ-відео, які, зізнаюся, завжди мене тішать.

    Ось, наприклад, я взяв три фотографії елегантної леді на коктейльній вечірці. Вона не носить сумочку, бо ніколи не платить за напої . При стандартній генерації у Veo 3 ми отримали ось це:

    А тепер спробуємо з рухом “орбіта вгору”. Я був майже впевнений, що всі три її версії зіллються в одну. Але ні, вона чудово впоралася!

    “Я ціную в тобі це, Джеймсе. Дуже професійно. Але пам’ятайте, у бізнесі смерті потрібно знаходити час, щоб трохи пожити.”

    Але якщо в оригінальному кадрі вже забагато руху, ось тут починаються проблеми. Візьмемо цей кадр і спробуємо зробити “орбіта вгору”.

    “Я ціную в тобі це, Джеймсе. Дуже професійно. Але пам’ятайте, у бізнесі смерті потрібно знаходити час, щоб якось прожити.”

    Так, це відео непридатне для використання, але з цією джазовою музикою фоном, це виглядає як справжній dissociated press trolling від Девіда Лінча!

    Були й інші “сюрпризи”. Ось наша улюблена “дівчина з вогнеметом”:

    “Чоловіче, сьогодні спекотно. Але незалежно від температури, гріх не мати вогнемет.”

    Застосуємо “орбіта вгору”:

    “Чоловіче, сьогодні спекотно. Але незалежно від температури, гріх не мати вогнемет.”

    Бачите, деталі фону просто “сплющилися”, а сама дівчина ніби сидить на біговій доріжці, без жодного відчуття руху. І камера, здається, не бачить її як суб’єкт, а просто рухається в просторі.

    Неочікувані успіхи: Багатокадрові генерації та перші кроки

    А тепер щось, чого я зовсім не очікував. Функція чудово впоралася з багатокадровими генераціями! Згадайте, як ми тестували функцію “інгредієнти” з цим кадром:

    “Тримайся, варваре!”
    “Я пройду, чи заберу голову?”

    І ось, застосовуємо “орбіта вниз”:

    “Тримайся, варваре!”
    “Я пройду, чи заберу голову?”

    Це просто круто! Ефект камери застосувався до всіх трьох кадрів. Вражаюче.

    Мене також зацікавило, як система поведе себе з першим і останнім кадром. Ось генерація, яку ми робили, тестуючи цю функцію:

    “Ну, це було досить непогано. Ну, це було досить непогано.”

    Аудіо тут трохи збіглося, але я хотів побачити, як “орбіта” вплине на все.

    “Ну, це було досить непогано. Ну, це було досить непогано.”

    Звісно, це не спрацювало. Але, думаю, це дає підказку, як працює ця функція. Я схиляюся до думки, що рух камери планується та застосовується з першого кадру відео.

    Підсумки по Veo 3.1: Ще не досконало, але вже захоплююче

    Отже, чи ідеально це? Ні, звісно. Але, знову ж таки, це експериментальна функція, і вона безкоштовна протягом двох тижнів. І, чесно кажучи, тут є над чим подумати. Мені вже приходять ідеї, як це можна інтегрувати в “Scene Builder” – це було б дуже корисно. І, звичайно, з часом ця функція буде тільки покращуватися. Ймовірно, вже до середини 2026 року пост-шотовий контроль камери стане звичайною справою. Можливо, навіть раніше.

    Nano Banana 2: Новий урожай “бананових” чудес?

    А тепер до іншої цікавої новини, яка стосується майбутніх технологій. Здається, скоро на нас чекає новий вибух “бананових” можливостей, бо Nano Banana 2 (або Gem Pix 2, як його ще називають) готується до випуску.

    Деталей поки небагато, але чутки ширяться. Нам обіцяють:

    • Чіткий і розбірливий текст на зображеннях.
    • Генерацію інфографіки та діаграм.
    • Глобальну підтримку мов.
    • І, найголовніше, вищу роздільну здатність зображень: за замовчуванням 2K, з інтелектуальним масштабуванням до 4K.

    І, звичайно, вже з’явилися перші “злиті” зображення. Не ставтеся до них серйозно, але ось приклад того, як може виглядати результат роботи Nano Banana 2.

    Зображення, звісно, стиснуте, тож 2K або 4K ми поки не бачимо. Але якщо застосувати до нього ту саму функцію редагування камери, що й до Veo 3.1 (зміщення на 30 градусів)…

    Виглядає приблизно на 30 градусів, так? Є також кілька кадрів з кавуном, що летить. Жарт про Галлахера тут недоречний, бо нова аудиторія може його не зрозуміти. Але виглядає круто, навіть якщо це не зовсім Nano Banana 2.

    Сподіваємось, ми дізнаємося більше вже в середині листопада, коли має вийти Gemini 3 та Nano Banana 2. Так що, чекаємо на новий “калієвий” заряд!

    Спонсорський сегмент: Adobe Firefly – майстерня майбутнього

    А тепер переходимо до нашого спонсора – Adobe. Сьогодні ми зануримося у світ їхньої функції Firefly Boards. Ми вже не раз говорили про Adobe, і вони знову виявили прихильність, партнерськи підтримавши це відео.

    Firefly Boards – це справжня майстерня для штурму ідей, де ви можете генерувати та редагувати кліпи, експериментуючи з різними моделями ШІ. Adobe зібрала під своїм дахом найкрутіші моделі – від Flux, Nano Banana до Veo 3 та Ray 3.

    Давайте почнемо зі створення тексту до зображення. Використаємо Google Imagine 4 з промптом: “Самурайський Вестерн”.

    (Зображення самурая на фоні західного містечка)

    Непогано, правда? А тепер те саме з Flux 1.1.

    Flux дає зовсім іншу інтерпретацію, але, на мою думку, з більшою енергією. Хоча є й проблеми. Наприклад, вивіска “Saloon” написана неправильно – Salon. Але ми можемо це виправити! За допомогою Nano Banana, можемо попросити “видалити вивіску”.

    (Вивіска зникла, але тепер усі на зображенні мають поганий вигляд)

    Ну, майже :D.

    Переходимо до генерації відео. Firefly Boards – це чудове місце для цього. Всі моделі зібрані в одному місці. Обираємо Ray 3.

    (Генерація відео від Ray 3)

    Ray 3 дає нам багато енергії, але Moon Valley поки не зовсім те, що треба. Але це нормально! Саме в цьому й перевага Firefly Boards – ви бачите сильні та слабкі сторони різних моделей.

    І, звичайно, Veo 3, яка надає звук.

    Але найкрутіше – це те, що всі ваші активи тут. Ви можете взяти зображення самурая, використати Flux, щоб створити шерифа, а потім інтегрувати його в…

    (Відео, де шериф зустрічає самурая)

    … і так створити цілу історію! Ви можете змішувати та поєднувати різні моделі, щоб отримати найкращий результат. Для креативних команд це місце, де можна досліджувати та вдосконалювати візуальні стилі. Для творців контенту – це нові робочі процеси, швидке прототипування та експерименти. І, звісно, ви не будете гадати, яка модель найкраща – ви зможете спробувати їх усі!

    Завітайте на Adobe Firefly вже сьогодні. У вас там безкоштовні кредити чекають!

    Adobe Max: Ще один погляд у майбутнє

    Знаєте, іноді спонсорські сегменти знімаються заздалегідь. І ви можете помітити, як змінився мій голос – я підхопив “генеративну застуду” на Adobe Max. Навіть не планував багато висвітлювати, але оскільки ви просили, ось дві речі, які мене вразили.

    Project Graph: Вузол за вузлом

    Перше – Project Graph. Багато хто побачив у ньому “Adobe Goes ComfyUi” або “Adopi UI”. Це вузлова система, яка об’єднує всі інструменти Adobe.

    (Демонстрація Project Graph з Firefly, Photoshop, Illustrator)

    Ви бачите, як все пов’язано: тут Firefly, тут Photoshop, тут Hue/Saturation. Але найкрутіше – це можливість інтегрувати зовнішні інструменти. Вони про це майже не говорили, але тут є модулі для Illustrator, і, що ще цікавіше, для зовнішніх LLM, Microsoft Image Captioning і… Comfy Cloud! Так, ви можете запускати ComfyUI всередині Project Graph. Це як “дошка для вбивств” всередині “дошки для вбивств”. Але це дійсно розумний хід від Adobe – створити платформу, яка розширює їхні інструменти за допомогою зовнішніх ресурсів.

    Project New Depths: 3D-магія з Gaussian Splats

    Друге – Project New Depths від Adobe Research. Це неймовірно цікавий проект, пов’язаний з Gaussian Splats. Уявіть, що ви можете взяти 2D-зображення і створити з нього 3D-представлення.

    (Демонстрація Project New Depths з трактором)

    Ви можете імпортувати нові об’єкти, і система розуміє, де вони знаходяться у 3D-просторі. Дерево стає за трактором, і його можна обертати. Це ніби Photoshop для Gaussian Splats!

    (Демонстрація вигину статуї)

    Ви можете навіть вигинати об’єкти, як ось цю статую. Це просто вау!

    motion Stream: Керуй відео рухом миші

    І наостанок – motion Stream. Генерація відео в реальному часі з інтерактивним керуванням рухом. Це спільна розробка Adobe Research, Carnegie Mellon та Soul National University.

    (Демонстрація motion Stream)

    Просто перетягніть мишею, і відео генерується, а ви контролюєте камеру в реальному часі. Це не тільки про атмосферу. Ось червоний квадрат – “тримай цю область”, зелений – “рухай цю область”.

    (Пудель дивиться навколо)

    І ось наш пудель може дивитися куди завгодно! Неймовірно.

    (Демонстрація реакції персонажа на рух)

    А персонажі можуть не залишатися статичними. Ось вам кадр з Sora, і коли ми переміщуємо персонажа, він реагує. Це ніби “Motion Brushing” з Gen 2, але саме таке, як ми завжди хотіли.

    motion Stream працює при 29 кадрах на секунду зі затримкою 0.4 секунди на Nvidia H100. Це потужна система, і я очікую побачити цю технологію в дії вже до 2026 року.

    Замість висновку: Майбутнє вже тут

    Як перетворити відео на розмову: Мої наступні кроки

    Отже, друзі, ми пройшли шлях від пост-шотового контролю камери у Veo 3.1 до нових горизонтів з Nano Banana 2, Adobe Firefly та motion Stream. Цей світ ШІ-генерації розвивається зі швидкістю звуку, і мені здається, що 2026 рік – це вже не так вже й далеко.

    Що ж далі? Я планую продовжувати експериментувати з цими новими інструментами. Мені цікаво:

    1. Систематизувати знання про Veo 3.1: Створити серію коротких відео-туторіалів, де я покажу конкретні приклади використання функції контролю камери – від найпростіших до найскладніших сценаріїв.
    2. Дослідити Nano Banana 2: Як тільки він вийде, я буду одним з перших, хто його протестує. Особливо цікаво дізнатися про його можливості генерації тексту та високу роздільну здатність.
    3. Інтеграція з Adobe Firefly: Я планую дослідити, як нові моделі, що додаються в Firefly, можуть покращити робочі процеси для відеоконтенту.
    4. Motion Stream – революція в інтерактивному відео: Це, мабуть, найзахопливіше. Я спробую зрозуміти, як можна використовувати motion Stream для створення інтерактивних історій, де глядач може впливати на розвиток подій.

    Я впевнений, що ці технології відкриють перед нами безліч нових можливостей. Можливо, ви вже почали використовувати їх? Чи є у вас якісь власні історії успіху або несподівані відкриття? Поділіться в коментарях! Давайте навчатися разом і творити неймовірне.

    До нових зустрічей, ваші руки тягнуться до клавіатури, а голова – до нових ідей!

    Підсумовуючи все вище сказане, ми бачимо, що сфера генерації відео шалено розвивається. Google з Veo 3.1 дає нам безпрецедентний контроль над контентом після його створення. Nano Banana 2 обіцяє вищу якість та нові можливості. А Adobe, разом із motion Stream, відкривають двері до інтерактивного кіномайбутнього. Це захопливий час для всіх, хто цікавиться новими технологіями!

    Заклик до дії: Не бійтеся експериментувати! Спробуйте нові функції, діліться своїми результатами та ставайте частиною цієї неймовірної спільноти творців. Майбутнє відео – за вами!

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x