Весна ШІ розквітає: Google додає “інгредієнти”, а OpenAI повертає “малюнок” для відео!

    Привіт! Сідай зручніше, зараз буде цікаво. Я провів тиждень, вивчаючи новини світу штучного інтелекту – так, це моя робота – і надибав на два оновлення, що нагадують весняний вітер: потужні, несподівані й такі, що віщують стрімкий розвиток. Google випустив не просто оновлення для своєї відеомоделі, а справжній апгрейд, назвавши його Veo 3.1. Водночас OpenAI повернула улюблену фішку для Sora. Звучить як початок чогось великого, правда?

    Всі пам’ятають, як дивувалися кожному новому відео, згенерованому ШІ? Це було щось магічне – ти йому текст, а він тобі картинку. А зараз? Зараз це вже не просто картинка, а ціла розповідь з діалогами, музикою й можливістю втручатися в процес, немов ти режисер великого кіно. І ці два оновлення – від Google та OpenAI – ніби два рясні дощі, що живлять цю сферу.

    Найцікавіше те, що Google, варто визнати, був трохи скромним, назвавши своє оновлення “0.1”. Чи випадково вони применшують свої досягнення? Бо те, що вони зробили, заслуговує щонайменше V4. Але, певно, це їхня гра. Сьогодні зануримося у цю цифрову весну, розглянемо зміни і, найголовніше, чому це важливо для кожного, хто хоч трохи цікавиться технологіями.

    Не можу не згадати про те, що ці подарунки вже з нами, ще до свят. Це різдво для тих, хто живе ШІ! Тож тримайтеся, бо вирушаємо в захопливу подорож світом генерування відео.

    Google Veo 3.1: Не просто “+0.1”, а революція в кишені!

    Перш ніж до деталей, давайте подивимося. Google вже випустив Veo 3.1, і, як заявляють розробники, оновлення має кращу якість, узгодженість, контроль, багатший звук, краще розуміння наративу, підвищений реалізм і розуміння навколишнього світу. Звучить як програма з новорічними обіцянками, правда? Але мене захоплюють функції, на які ми чекали ще у V3!

    Покажіть модель 3.1 у дії. Почнімо з класики – тексту у відео. Ось приклад, який робили давно, ще на Veo 3:

    Текст: “The border is right past those trees.”

    Пригадую той самий запит. І досі впевнений, що хлопці звідти не дійдуть до кордону. Але подивіться, як це виглядає тепер, у Veo 3.1:

    Текст: “The border is right past those trees.”

    Загалом, помітне поліпшення. Можливо, через стиснення аудіо YouTube чути не чітко, але звук став кращим, багатшим і глибшим. І, бачите, більше насиченості кольорів у заході сонця. Але, так, ці хлопці все одно не перетинають кордон.

    Цікаво: Google стверджує, що Veo 3.1 покращує “narrative comprehension” – здатність моделі розуміти сюжет і послідовність подій у тексті. Ніби ваш сценарист почав читати ваші думки!

    Більшість з вас, хто дивиться мій канал, працює з форматом “зображення в відео”. Тому, перейдемо до цієї задачі. Запит був простий: “жінка йде вперед, чоловік обертається і йде за нею”. Ось що було на початку V3:

    А ось що отримали в V3.1:

    Тепер, мушу визнати, що 3.1 створила джерело світла за жінкою. І, хоча це було несподівано, мені подобається. Тут навіть є щось схоже на “lens flare” – відблиск об’єктива. Але, загалом, бачите різницю в загальній чіткості та текстурі між двома версіями. Наші персонажі виглядають краще.

    Ще одне порівняння “зображення в відео” перед тим, як рухатися далі. Ось вихід у стилі Bethesda з 3.0:

    Субтитри (3.0): “Hey, you. You’re finally awake. You were trying to cross the border, right? Wait, this is the wrong game.”

    А тепер спробуємо це в 3.1:

    Субтитри (3.1): “Hey, you. You’re finally awake. You were trying to cross the border, right? Wait, this is the wrong game.”

    Це безперечно покращення. По-перше, жодних субтитрів. По-друге, текст не перемішався. Загалом, бачу покращення в моделі відео. Можливо, несуттєве, але, це лише 0.1. Але, на мою думку, перлини оновлення 3.1 – це нові функції.

    Нові “інгредієнти” та “розтяжки”: Як Google дає більше інструментів

    Зосередимося на платформі Flow, оскільки функції реалізовуються через API, але кожна платформа буде втілювати їх по-різному. Отже, ми тримаємося “материнського корабля” – Google.

    Перше, в Veo 3.1 нарешті з’явилися функції “перший кадр, останній кадр”. І, працює добре. Використовуючи ці два зображення як перший і останній кадр, отримуємо:

    Текст: “Did you use the new first frame last frame feature on Veo 3.1? I know it’s pretty good, right?”

    Загалом, функція працює добре. Не буду витрачати на це багато часу, бо це просто “перший кадр, останній кадр”. Але, приємно мати цю можливість у Veo 3.1.

    Але ось функція, на яку чекав, – це “інгредієнти до відео”. Вона діє на кшталт Whisk, але для відео або як референси, що створюють гібрид між “текст до відео” та “зображення в відео”. З “інгредієнтами” можна взяти до трьох референсних зображень – скажімо, два персонажі та локація – а потім написати текстовий запит, і воно ніби змішає все це.

    Наприклад, беремо цього персонажа, цього персонажа та цю локацію:

    Текст: “Every part of this video is taken from a different still image. And we are just ingredients. This is incredible.”

    І це, мушу сказати, досить добре. Нагадує мені проєкт “The Bridge”, короткометражку, яку робив з ранньою V2, ще до релізу. Мені доводилося використовувати всілякі хитрощі, щоб отримати якусь стабільність. А тут, з новою функцією “інгредієнти”, це набагато ближче до того, що задумував.

    Текст: “Do I pass or do I take your head?”

    З новою функцією “інгредієнти”, це значно ближче до початкового задуму.

    Гумористичне застереження: Спочатку я так захопився цією функцією, що намагався зробити відео, де мій кіт одночасно був і космічним пілотом, і шеф-кухарем. Результат був… артхаусним.

    І ще одна важлива новинка – розширення сцен. Можна вийти за межі 8-секундного обмеження. Раніше це можна було зробити на Flow, але це переносило вас до V2. Тепер же…

    Щоб запустити розширення, потрібно скористатися “Scene Builder” (Побудовник сцен). Ось він. Натискаємо кнопку “плюс” і вибираємо “розширити”. І тоді ми пишемо текстовий запит, що має статися далі.

    Текст: “It is a damn fine cup of Joe, but how’s the pie? The pie is amazing. It’s an old recipe from the log lady who got it from the owls.”

    Непогано, правда? Звісно, є кілька проблем. Музика повністю зникає, коли ми переходимо до розширення. Я вже спілкувався з DeepMind щодо цього, і вони знають про це. Ймовірно, це виправлять.

    Також може бути трохи незграбно, особливо якщо є якесь затуляння об’єктів у момент передачі. Наприклад:

    Текст: “I wonder if this old bucket will hold together for the rest of the journey.”
    Текст: “Oh, she’ll pull through.”
    Текст: “What was that?”

    Може бути незграбно, але схоже на фокус від Капітана Річарда Бренсона. Існують обхідні шляхи на платформі, особливо враховуючи, що натиснувши на іконку “плюс”, кадр зберіжеться, а потім його можна імпортувати як “Кадри для відео” для розширення або переходу. Якщо стикаєтесь з цими проблемами, є творчі рішення.

    Загалом, “Scene Builder” – чудова ідея. Просто вона ще не зовсім “допечена”. Можна обрізати кліпи всередині. Не рекомендую. Доведеться переходити до цієї кнопки. Це не найінтуїтивніша функція.

    Вони на порозі чогось корисного і потужного. Питання в тому, наскільки далеко вони зайдуть, перш ніж це стане DaVinci чи Premiere на Flow.

    Щодо розширень: здається, старі кліпи з 3.0 не можна розширювати у 3.1. Я пробував кілька разів, і кнопка “відправити” не з’являється. Не знаю, чи це помилка, чи просто несумісність в архітектурі.

    Об’єкти в сцені: Додаємо та прибираємо як на українському ярмарку

    Завершуючи нові функції, ми маємо можливість додавати об’єкти до сцени. А також прибирати їх – поки що не випущено, але вже тестуємо.

    Уявіть собі: неіснуючий чоловік у синьому діловому костюмі.

    Текст: “I wonder where my arctic wolf is.”

    Не знаю, чому Veo використовувала музику в цьому випадку. Щоб додати об’єкти, переходимо до маленької іконки олівця. Звідти ми можемо або написати запит на все, що хочемо побачити, або створити рамку і описати, що ми хочемо побачити всередині неї.

    Додамо нашого вовка.

    Текст: “I wonder where my arctic wolf is.”

    Досить вражаюче вставлення. Враховуючи, що вовк і його тіні відповідають сцені. Схоже на реалістичне зображення. Я трохи занепокоєний спостережливістю нашого чоловіка в синьому діловому костюмі, але це вже інша історія.

    Жарт від стрімера: “Можливо, цей чоловік просто не знає, що таке артроз. Або він просто не бачить мою титанічну роботу з додавання вовка!”

    Потужність 3.1 полягає в усіх цих функціях, особливо якщо почати їх поєднувати в “Scene Builder”. Мені вдалося отримати POV-відео з першим і останнім кадром у стилі відеогри, а потім додати до нього два розширення:

    Текст: “Have you found the treasure yet?”
    Текст: “Captain, another ship on the horizon.”
    Текст: “Then we don’t have much time.”
    Текст: “Then it’s up to you to find the booty.”
    Текст: “Also, if you don’t wipe that grin off your face, I’ll make you walk the plank.”

    Я сміюся з “booty”.

    Мій вердикт: на мою думку, це дивовижне оновлення 0.1 від команди Google. Враховуючи всі впроваджені функції. Чи є ще шлях? Так. Але, це 0.1! Я відчуваю, що є багато чого для дослідження з усіма цими новими функціями та іграшками, і з нетерпінням чекаю, які робочі процеси та ідеї ви придумаєте.

    OpenAI Sora: Повернення “малювальника” та довші відео

    Тепер переходимо до OpenAI. Розробники також не відстають і випустили оновлення для Sora.

    Перше, що хочу відзначити, це оновлення стосується ваших інтересів і стає трохи дивним. Перевіримо Recraft.

    Agentic Workflows набирають обертів. Один з них ми розглядали раніше цього тижня, і сьогодні я маю ще один від наших друзів з Recraft, які були такі добрі, що проспонсорували сьогоднішнє відео.

    Багато хто з вас знає, що я не раз згадував Recraft на каналі. Це платформа для генерації зображень, орієнтована на професійних творців і дизайнерів. Recraft пропонує різноманітні моделі, стилі та функції редагування. На мою думку, це єдина платформа, яка виводить результат у форматі SVG або векторної графіки. І, звісно, у них є своя модель “червоної панди”.

    Вони представили нову функцію чату, яку можна використовувати для генерації, редагування і навіть брейнштормінгу. Щоб почати роботу з режимом чату, просто потрібно піднятися до куточка і переключити функцію чату. Це надасть вікно чату, яке дасть кілька ідей щодо того, що ви хочете зробити.

    Відкривши чат, ось тут стає трохи дивно, але дуже весело. Я вирішив протестувати його з концепцією створення мудборду для світу фентезі в стилі Dungeons and Dragons, де вся магія живилася музикою. Ідея полягала в тому, щоб обдумати, як виглядають персонажі в цьому світі, як виглядає сам світ, і як все це працює. І, здається, режим чату був більш ніж щасливий піти на це.

    Одна з перших концепцій, яку ми розробили, був “хіп-хоп паладин”. І я просто обожнюю цього хлопця. Він точно б’є своїм бумбоксом в ім’я правди.

    Наступна концепція, над якою почали працювати, був “блюзовий чарівник”. Спочатку він виглядав ось так, і я особисто вважав його трохи занадто молодим для такого чарівника. Потім спробували ілюстративний стиль, який, чесно кажучи, мені зовсім не сподобався, перш ніж зупинитися на цьому хлопцеві, який, як на мене, чудово передає образ “Дельта-блюз Гандальфа” – це, мабуть, найтупіша річ, яку можна сказати, але водночас він крутий.

    Про “agentic” частину за хвилину, але хочу повернутися до того, наскільки зручно мати чат прямо в додатку. Коли я намагався придумати більше ідей, я просто казав: “Дай мені 20 архетипів фентезі”. І тоді ми могли б працювати з ними, що, по суті, і призвело до появи “EDM Druid” та “Elven Shredder”. Також мушу відзначити “one shot” – це був “реггі-клірик”. Це просто вищий пілотаж.

    Переходячи до більш “workflow” та “agentic” аспектів, цікаво, що чат може контролювати вашу сесію. Ось наші лиходії – демонічні класичні композитори. Я нічого не маю проти класичної музики чи композиторів, вони просто виходять добрими лиходіями.

    Якщо ми хочемо внести зміни, все, що потрібно зробити, це вибрати зображення. З’явиться функція “змінити зображення”. І, в вас є доступ до всього, що є на Recraft. Ви можете використовувати будь-які моделі або стилі Recraft – “nano banana”, “GPTs crad”, “imagine for” (так, це підтверджено), “flux” і аж до “Quen” та “Hydream”.

    Спробуємо “banana”. І скажемо: “Зміни загальний тон кольору на цьому зображенні на синій”. Нічого особливого. Запускаємо. І, звісно, “banana” робить це без проблем.

    Що круто в Recraft, так це, що можна змінити його з “nano bananas”. Спробуємо в “Cadream” і просто скажемо: “Надай мені чотири різні ракурси та кадри на основі цього зображення”. Запускаємо. І, хлопці, вони справді виглядають злими, чи не так?

    Якщо хочете стилістично об’єднати, можна використовувати стилі Recraft або створити власний. Зайшовши в модель Recraft, перейшовши до стилю, у мене кілька, які виводять результат у вигляді інді-лоу-фай графічного роману.

    Я не завжди був у захваті від “Agentic Workflows”, але мушу визнати, що вони починають повільно мене переконувати. Якщо хочете спробувати режим чату для ReCraft, ось посилання нижче, щоб приєднатися до списку очікування. А поки що можете спробувати ReCraft безкоштовно. Вони пропонують безкоштовний рівень з 30 кредитами, що поновлюються щодня. Якщо зацікавлені, то це просто стрибок до 10 доларів на місяць за професійний план. Рекомендую спробувати ReCraft. Знаєте, зареєструйтеся на безкоштовний план.

    Особиста рекомендація: Зазвичай не люблю платити за інструменти, поки не переконаюся, що вони мені потрібні. Але з Recraft я одразу ж закинув гроші на Pro. Це того варте, повірте!

    Sora: Більше відео, більше контролю – повернувся Storyboard!

    Рухаємося далі. Команда OpenAI випустила оновлення для моделі Sora: тепер користувачі можуть генерувати до 15 секунд відео в додатку та в інтернеті, а професійні користувачі – до 25 секунд в інтернеті.

    Як зауваження, 25-секундні генерації недоступні. Навіть на про-плані, безпосередньо за текстовим запитом отримати не можна. Потрібно перейти до “Storyboard” (Сценарію), щоб отримати доступ.

    Що мій камео там робить? Він був усюди.
    Запускаємо, і ми візьмемо це зображення. Sora не любить реалістичних людей. І спробуємо створити щось на кшталт атмосферного лоу-фай.

    Звідси текстовим запитом створите кожну зі своїх сцен. Коли ви додаєте новий час, все це оновлюється. Автоматично налаштувати час. Здається, він пропонує ідеї щодо часу. Тож, якщо ви хочете отримати детальний часовий розклад, можете це зробити.

    Не можна використовувати референсні зображення в кожній зі сцен. Тому зроблю коротке 15-секундне відео.

    Гаразд, схоже, все, що можу зробити, це 15 секунд, правильно? З якоїсь причини 25 секунд заблоковано. Не знаю чому.

    Загалом, робить досить добре роботу. Стилістично, це виглядає добре, і послідовно у всіх кадрах. Це трохи “софтбольно”, враховуючи лоу-фай естетичний вигляд. Але у мене не було часу випробувати його повною мірою.

    Це хороший початок для UI “Storyboard”. Є функції, які я хотів би бачити реалізованими. Наприклад, можливість завантажувати нові референсні зображення для різних сцен. Мені буде цікаво побачити, як з часом це почне більше нагадувати “Storyboard” Sora 1.

    Sora 1, багато чого робила правильно. Функція “Storyboard” була хорошою. Оригінальні функції “відео-до-відео” Sora 1, “відео-ремікс”. Це була прихована суперсила. Воно могло бути дивним, але коли виходило добре, могло робити вражаючі речі. І досі може. Це функція, на яку я сподіваюся, побачимо оновлення в Sora 2.

    Два великі титани випускають великі оновлення цього тижня. Радий бачити, що ще сталося, бо впевнений, що є ще сотні речей.

    Отже, я впевнений, що побачимося знову дуже скоро. Мене звати Стем.

    Підсумок: Весна ШІ вже тут!

    Підсумовуючи, ці гіганти – Google і OpenAI – не просто оновлюють продукти, а активно формують майбутнє генеративного відео. Google з Veo 3.1 дає більше контролю, кращу якість та нові інструменти, такі як “інгредієнти” та “розширення сцен”. Це як отримати нові пензлі та фарби для художника. Sora, повернувши “Storyboard” і збільшивши тривалість відео, дає можливість створювати складніші наративи, немов режисерам, які отримують довші треки.

    Ми бачили, як ШІ вчиться створювати зображення, що мало вигляд картини маслом. Тепер він вчиться створювати відео, що стає схожим на справжнє кіно. Ці оновлення – крок до democratisation створення контенту. Тепер кожен, хто має ідею, може втілити її у візуальній формі, навіть без професійних навичок.

    Що далі?

    1. Експериментуйте! Спробуйте нові функції. Завантажте Veo 3.1, протестуйте Sora. Не бійтеся помилятися. Це найкращий спосіб навчитися.
    2. Поєднуйте інструменти. Хто знає, можливо, комбінація Veo 3.1 і Sora дасть вам ще кращі результати? Технології розвиваються, і ми тільки вчимося їх використовувати.
    3. Стежте за новинами. Будуть нові оновлення, моделі, можливості. Тримайте руку на пульсі!

    Технології – це лише інструменти. Головне – ваша креативність, ваші ідеї та ваша здатність перетворювати їх на реальність. Весна ШІ – час, коли ваші ідеї можуть стати візуальною реальністю. Творіть, експериментуйте і дивуйте світ!

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x