Революція у відео: Google V2 та Minia Max – погляд з людським обличчям
Вітаю, шановні поціновувачі інновацій! Сьогодні ми зануримося у світ штучного інтелекту, який змінює те, як ми створюємо відео. І тут є дві головні дійові особи: Google V2, якого вже охрестили “Midjourney у світі відео”, та оновлений Minia Max з його режимом режисера. Тож, чи варті ці новинки витрачених коштів? Давайте розбиратися!
V2: Від “Турбо” до “Великого Тата”
Нещодавно Google V2 вийшов з тіні закритого бета-тестування та обмеженої версії для YouTube Shorts. Тепер це повноцінний інструмент, доступний на різних платформах, таких як Free Pick та Falo.a. Особливо радує те, що більше немає географічних обмежень – використовувати його можна у всьому світі.
Раніше V2 був доступний лише у “турбо” режимі, який залишав бажати кращого щодо роздільної здатності та формату (9×6). Але тепер ми маємо “великого тата” – версію, яка відкриває нові горизонти можливостей.
До цього моменту V2 не підтримував перетворення зображення у відео. Так, існував обхідний шлях через Google Image Gen 3, але він не мав тих додаткових функцій та робочих процесів, до яких ми звикли. І ось, нарешті, ця функція з’явилася!
Текст vs. Зображення: Дві різні історії
Варто зазначити, що V2 по-різному обробляє запити на основі тексту та на основі зображень. Для прикладу, я спробувала створити відео з драконом, що літає над… ну, скажімо, “аналогічним Вінтерфеллу” місцем. Результат був непоганий, хоча дракон рухався трохи повільно, а мешканці містечка виглядали дещо розгубленими.
Але коли я використала той самий запит, базуючись на згенерованому зображенні в Image Gen 3, результат був значно кращим. Дракон виглядав крутіше, з’явилася гра тіней на замку, коли він махав крилами. Звичайно, селяни все ще не виявляли особливого жаху, але, можливо, для них це звичне явище?
Наразі єдиний спосіб використовувати функцію перетворення зображення у відео – через Free Pick, але, думаю, з часом це зміниться.
Тестуємо V2: Від аргументів до ефектних стилів
Я почала з простого: взяла зображення двох чоловіків і додала запит “два чоловіки сперечаються”. V2, очевидно, мав трохи нетверезого оператора, який тряс камерою перед джерелом світла. Але, попри це, результат був цілком пристойним.
Далі я захотіла перевірити, як V2 справляється з естетичними стилями. Я використала зображення дівчини та додала запит “вона дивиться у приціл і цілиться”. Результат мене приємно здивував: стиль зображення був збережений, будівлі на задньому плані виглядали органічно, і навіть було видно краплі дощу на стволі гвинтівки. Вражаюче!
Звичайно, не обійшлося і без деяких труднощів. Я взяла зображення, яке використовувала раніше в Sky Reels, і додала запит “чоловік опускає зброю і починає сміятися”. Я була трохи розчарована тим, що V2 вирішив випадково перемикати кадри протягом генерації. Хоча стилістично все залишалося однаковим, не було відчуття цілісного 8-секундного відео.
Але я отримала генерацію на основі цього зображення, яка мені сподобалася. Цей vibe “кіно про закоханих в стилі 90-х, які втікають від закону”. Запит був: “жінка йде до камери, а потім чоловік повертається і йде поруч з нею”. І майже вийшло! Чоловік просто вирішив занести щось на переробку, перш ніж продовжити свою злочинну діяльність.
В цілому, я повинна віддати належне V2. Анімація ходьби виглядає дуже реалістично. Звичайно, є деякі нюанси щодо контакту її ніг з землею, але це вже прискіпливість.
Блокбастери та не тільки: V2 в дії
Для наступного тесту я використала згенероване в Midjourney зображення супергероя проти гігантського робота. Запит був простий: “кінець “Суперсімейки”, якби його знімав Майкл Бей”. Результат був непоганий. Робот мав досить реалістичну ходу, з пилом та уламками, що здіймалися вгору. Але відчувалося, що йому трохи бракує ваги. Я також додала запит, щоб супергерой почав парити, але цього не сталося.
Ще один блокбастер-тест: НЛО вибухає над… ну, скажімо, Філадельфією. Результат вийшов непоганим, але я сподівалася на більш драматичний вибух. Схоже, НЛО просто здулося. І всі спостерігачі виглядають якимись незацікавленими. Можливо, це ранок після Супербоулу, і фанати “Eagles” підірвали НЛО на честь перемоги? Хто знає!
Не можу не поділитися ще одним прикладом того, як штучний інтелект може мене розсмішити. На зображенні – типова шпигунська сцена часів холодної війни. Запит був: “чоловік справа передає валізу чоловікові зліва, а потім виймає пістолет і стріляє в нього”. V2 видав щось зовсім не те, що я очікувала. Це було смішно, але потім стало моторошно. В кінці чоловік отримав кулю в голову. Я не думаю, що це пов’язано з контент-фільтром, бо ця сцена набагато інтенсивніша, ніж мої попередні тести.
Наостанок я вирішила протестувати V2 зі старим матеріалом. Я взяла зображення капітана Ренфілда з мого короткометражного фільму “Мертве море” і додала запит “пірат розповідає сумну історію”. V2 знову почав робити свої дивні переходи, але що мене здивувало, так це те, що капітан Ренфілд залишався незмінним у всіх кадрах.
Для порівняння, я запустила те саме зображення та запит у Sora. І, ну, Sora зробила те, що робить Sora – видала зовсім іншого персонажа та іншу сцену. Я не хочу критикувати Sora, я просто хочу, щоб вони стали кращими.
Відгуки спільноти: V2 в руках інших
Володимир Чайнер (сподіваюся, правильно вимовляю) поділився зображенням найцікавішого чарівника у світі. Борода у нього просто фантастична! V2, як завжди, почав робити свої переходи, але в цьому випадку все виглядало цілком контекстно.
Також є відео від V2 з собакою, який чекає, поки господар повернеться додому. Я завжди кажу: мені все одно, чи згенерований цей собака штучним інтелектом, він все одно хороший пес!
Хесус Плаза поділився сюрреалістичним обертовим кадром кришталевого черепа. Тема, про яку ніхто ніколи не знімав фільмів!
Отже, як підсумок, V2 як модель для перетворення зображень у відео – це добре. Він чудово справляється з одними речами, але стикається з труднощами у інших. Як і всі існуючі генератори відео. Чи могли б ви використовувати його для створення цілого проекту? Можливо. Але головна проблема – це ціна. Зараз вартість використання V2 API від Google становить 50 центів за секунду. Це багато! Для порівняння, Cling API коштує лише 14 центів за генерацію.
Хоча результати V2 виглядають дуже добре, я б рекомендувала розглянути інші варіанти, такі як Cling, Minia Max, Luma тощо. Хіба що у вас є дуже специфічні ідеї щодо перетворення тексту на відео. В цьому плані V2 все ще залишається лідером.
Minia Max: Режим режисера в дії
А зараз давайте поглянемо, що може запропонувати Minia Max. Я не буду заглиблюватися в деталі, тому що вже розповідала про цю функцію в огляді перетворення тексту на відео. Переконайтеся, що у вас увімкнено режим режисера ITV1. Тут є багато різних елементів керування: різні рухи камери, такі як панорамування, нахил, кругові рухи та інше.
Повернемося до зображення, яке я використовувала у V2, і додамо той самий запит разом з панорамою праворуч. Цікаво, що наш персонаж справді розвертається і починає йти поруч. А рух камери додає кадру додаткової глибини.
Я порівняла V2 з Minia Max, додавши тремтіння камери. Хоча тремтіння вийшло досить м’яким, Minia Max все ж виконав запит і показав, як наша псевдо-супердівчина злітає вгору.
Ви також можете комбінувати різні кадри в одному запиті, хоча у нас є лише шість секунд. Наприклад, панорама праворуч і ліворуч в русі. Жінка підходить і розповідає сумну історію, хоча вона не виглядає дуже сумною. А потім на останніх кадрах починається збільшення масштабу. Сподіваюся, Minia Max скоро дійде до 8-10 секунд, бо тоді це окупиться.
Ще один приклад того, як штучний інтелект має почуття гумору. Запит: “жінка повільно встає, повертається, а потім відходить”. Minia Max видав щось несподіване: вона просто встає, повертається і йде до іншого бару. Хтось, переконайтеся, що вона викликає Uber!
Мене дійсно вражає, як новий режим режисера підтримує стилістичну послідовність. Наприклад, анімований вигляд з панорамою праворуч і збільшенням масштабу. Запит: “гігантський робот робить повільний крок вперед”. Результат був саме таким: панорама праворуч, збільшення масштабу, і робот виглядає дуже послідовним, як і весь пейзаж праворуч.
Звичайно, якщо ви спробуєте видати кілька команд одночасно, ви не завжди їх отримаєте. І якщо ви спробуєте додати нові елементи в сцену, то візьме гору модель перетворення тексту на відео. Наприклад, у нас була панорама чоловіка, що йде коридором, і панорама відчинених дверей, де був клоун, що тримає червону повітряну кулю в кімнаті із зеленим відтінком. В кінці ми отримали клоуна. Хоча і страшного, але з типовим для перетворення тексту на відео виглядом. Тож поки що, якщо ви плануєте додати нові елементи у кадр, просто думайте в стилі перетворення тексту на відео.
В цілому, завдяки елементам керування камерою ми отримуємо досить крутий рух камери.
Висновок
Отже, у нас є дві інновації, які змінюють світ відео. Google V2 з його потужними можливостями, але високою ціною, та Minia Max з його режимом режисера, який дає більше контролю над творчим процесом. Обидва інструменти мають свої сильні та слабкі сторони, і вибір залежить від ваших потреб та бюджету.