Революція у відео: Google V2 та Minia Max

Революція у відео: Google V2 та Minia Max – погляд з людським обличчям

Вітаю, шановні поціновувачі інновацій! Сьогодні ми зануримося у світ штучного десь так, інтелекту, який змінює те, як ми створюємо відео. І тут є дві головні дійові особи: Google V2, якого вже охрестили “Midjourney у світі відео”, та оновлений Minia Max з його режимом режисера. Тож, чи варті в принципі, ці новинки витрачених коштів? Давайте розбиратися!

V2: Від “Турбо” до “Великого Тата”

Нещодавно Google V2. Вийшов з тіні закритого бета-тестування та обмеженої версії для YouTube Shorts. Тепер це повноцінний інструмент, доступний на різних платформах, таких як Free Pick та Falo. a. До речі, особливо радує те, що більше немає географічних обмежень – використовувати його можна у всьому світі. До речі,

Раніше V2 був доступний лише у “турбо” режимі, який залишав бажати кращого щодо роздільної здатності та формату (9×6). Але тепер ми маємо “великого тата” – версію, яка відкриває нові горизонти можливостей.

До цього моменту V2 не підтримував перетворення зображення у відео. Так, існував обхідний шлях через Google Image Gen 3, але він не мав тих додаткових функцій та робочих процесів, до яких ми звикли. І ось, нарешті, ця функція з’явилася бо

Текст vs. Зображення: Дві різні історії

Варто зазначити, що V2 по-різному. Обробляє запити на основі тексту та на основі зображень. Для прикладу, я спробувала створити відео з драконом, що літає над. Ну, скажімо, “аналогічним Вінтерфеллу” місцем. Результат був непоганий, хоча дракон рухався трохи повільно, а мешканці містечка виглядали дещо розгубленими.

Але коли я використала той самий запит, базуючись на згенерованому зображенні в Image Gen 3, результат був значно кращим. Дракон виглядав крутіше, з’явилася гра тіней на замку, коли він махав крилами. Звичайно, селяни все ще не виявляли особливого жаху, але, можливо, для них це звичне явище?

Наразі єдиний спосіб використовувати функцію перетворення зображення у відео – через Free Pick, але, думаю, з часом це зміниться.

Тестуємо V2: Від аргументів до ефектних стилів

Я почала з простого: взяла зображення двох чоловіків і додала запит “два чоловіки сперечаються”. V2, очевидно, мав трохи нетверезого оператора, який тряс камерою перед джерелом світла. Але, попри це, результат був цілком пристойним.

Далі я захотіла перевірити, як V2 справляється з естетичними стилями. Я використала зображення дівчини та додала запит “вона дивиться у приціл і цілиться”. Результат мене приємно здивував: стиль зображення був збережений, будівлі на задньому плані виглядали органічно, і навіть було видно краплі дощу на стволі гвинтівки. Вражаюче!

Звичайно, не обійшлося і без деяких труднощів. Я взяла зображення, яке використовувала раніше в Sky типу, Reels, і додала запит “чоловік опускає зброю і починає сміятися”. Я була трохи розчарована тим, що V2 вирішив випадково перемикати кадри протягом генерації. Хоча стилістично уявіть собі, все залишалося однаковим, не було відчуття цілісного 8-секундного відео. Фактично,

Але я отримала генерацію на основі цього зображення, яка мені сподобалася. Більше того, цей vibe “кіно про закоханих в стилі 90-х, які втікають від закону”. Запит був: “жінка йде скажімо, до камери, а потім чоловік повертається і йде поруч з нею”. І майже вийшло! Чоловік просто вирішив занести щось на переробку, перш ніж продовжити свою злочинну діяльність.

В цілому, я повинна віддати належне V2. Анімація ходьби виглядає дуже реалістично. Звичайно, є деякі нюанси щодо контакту її ніг з землею, але це вже прискіпливість.

Блокбастери та не тільки: V2 в дії

Для наступного тесту я використала згенероване в Midjourney зображення супергероя проти гігантського робота. Запит був простий: “кінець “Суперсімейки”, якби його знімав Майкл Бей”. Результат був непоганий. Робот мав досить реалістичну ходу, з пилом та уламками, що здіймалися вгору. Як зазначалося, Але відчувалося, що йому трохи бракує ваги. Я також додала запит, щоб супергерой почав парити, але цього не сталося.

Ще один блокбастер-тест: НЛО вибухає над. Ну, скажімо, Філадельфією. Очевидно, результат вийшов непоганим, але я сподівалася на більш драматичний вибух. Схоже, НЛО просто здулося. І всі спостерігачі виглядають якимись незацікавленими. Можливо, це ранок після Супербоулу, і фанати “Eagles” підірвали НЛО на честь перемоги? Хто знає!

Не можу не поділитися ще одним прикладом того, як штучний інтелект може мене розсмішити. На зображенні – типова шпигунська сцена часів холодної війни. Запит був: “чоловік справа уявіть собі, передає валізу чоловікові зліва, а потім виймає пістолет і стріляє в нього”. V2 видав щось зовсім не те, що я очікувала. Це було слухайте, смішно, але потім стало моторошно. В кінці чоловік отримав кулю в голову. Я не думаю, що це пов’язано з контент-фільтром, бо ця сцена набагато інтенсивніша, ніж мої попередні тести.

Наостанок я вирішила протестувати V2 зі старим матеріалом. Я взяла зображення капітана Ренфілда з мого короткометражного фільму “Мертве море” і додала запит “пірат розповідає сумну історію”. V2 знову почав робити свої дивні переходи, але що мене здивувало, так це те, що капітан Ренфілд залишався незмінним у всіх кадрах.

Для порівняння, я запустила те саме зображення та запит у Sora. І, ну, уявіть собі, Sora зробила те, що робить Sora. Чесно кажучи, – видала зовсім іншого персонажа та іншу сцену. Я не хочу критикувати Sora, я просто хочу, щоб вони стали кращими.

Відгуки спільноти: V2 в руках інших

Володимир Чайнер (сподіваюся, правильно вимовляю) поділився зображенням найцікавішого чарівника у світі. Борода у нього просто фантастична! Простіше кажучи, v2, як завжди, почав робити свої переходи, але в цьому випадку все виглядало цілком контекстно.

Також є відео від V2 з собакою, тобто, який чекає, поки господар повернеться додому. Я завжди кажу: розумієте, мені все одно, чи згенерований цей собака штучним інтелектом, він все одно хороший пес!

Хесус Плаза поділився сюрреалістичним обертовим кадром кришталевого черепа. Очевидно, тема, про яку ніхто ніколи не знімав фільмів!

Отже, як підсумок, V2 як модель для перетворення зображень у відео – це добре. Цікаво, він чудово справляється з одними речами, але стикається з труднощами у інших. Як і всі існуючі генератори відео. Чи могли б ви використовувати його для створення цілого проекту? Можливо. Але головна проблема – це ціна. Зараз вартість використання V2 API від Google становить 50 центів за секунду. Це багато! Для порівняння, Cling API коштує лише 14 центів за генерацію.

Хоча результати V2 виглядають дуже добре, я б рекомендувала розглянути інші варіанти, такі як Cling, Minia Max, Luma тощо, в такому дусі. Хіба що у вас є дуже специфічні ідеї щодо перетворення тексту на відео. В цьому плані V2 все ще залишається лідером.

Minia Max: Режим режисера в дії

А зараз давайте поглянемо, що може запропонувати Minia Max. Фактично, я не буду заглиблюватися в деталі, тому що вже розповідала про цю функцію в огляді перетворення тексту на відео. Переконайтеся, що у вас увімкнено режим режисера ITV1. Тут є багато різних елементів керування: різні рухи. Камери, такі як панорамування, нахил, кругові рухи та інше.

Повернемося до зображення, яке я використовувала у V2, і додамо той самий запит разом з панорамою праворуч. Цікаво, що наш персонаж справді розвертається і починає йти поруч. А рух камери додає кадру ї глибини.

Я порівняла V2 з Minia Max, додавши тремтіння камери. Очевидно, хоча тремтіння вийшло досить м’яким, Minia Max все ж виконав запит і показав, як наша псевдо-супердівчина злітає вгору.

Ви також можете комбінувати різні кадри в одному запиті, хоча у нас є лише шість секунд. Наприклад, панорама праворуч і ліворуч в русі. Жінка підходить і розповідає сумну історію, хоча вона не виглядає дуже сумною. А потім от, на останніх кадрах починається збільшення масштабу. Сподіваюся, Minia Max скоро дійде до 8-10 секунд, бо тоді це окупиться.

Ще один приклад того, як штучний інтелект має почуття гумору. Запит: “жінка повільно встає, повертається, а потім відходить”. Minia Max видав щось несподіване: в принципі, вона просто встає, повертається і йде до іншого бару. Хтось, переконайтеся, що вона викликає Uber!

Мене дійсно вражає, як новий режим режисера підтримує стилістичну послідовність. Наприклад, дивіться, анімований вигляд з панорамою праворуч і збільшенням масштабу. Запит: “гігантський робот робить повільний крок вперед”. Чесно кажучи, результат був саме таким: панорама праворуч, уявіть собі, збільшення масштабу, і робот виглядає дуже послідовним, як і весь пейзаж праворуч.

Звичайно, якщо ви спробуєте видати кілька команд одночасно, ви не завжди їх отримаєте. І якщо ви спробуєте додати нові елементи в сцену, то візьме гору модель перетворення тексту на відео. Наприклад, у нас була панорама чоловіка, що йде коридором, і панорама відчинених дверей, де був клоун, що тримає червону повітряну кулю в кімнаті із зеленим відтінком. В кінці ми отримали клоуна. Хоча і страшного, але з типовим для перетворення тексту на відео виглядом. Тож поки що, якщо ви плануєте додати нові елементи. До речі, у кадр, просто думайте в стилі перетворення тексту на відео.

В цілому, завдяки елементам керування камерою ми отримуємо досить крутий рух камери. Зрозуміло,

Висновок

Отже, у нас є ну, дві інновації, які змінюють світ відео. Google V2 з його потужними можливостями, але високою ціною, та Minia Max з його режимом режисера, який дає більше контролю над творчим процесом. Обидва інструменти мають свої сильні та слабкі сторони, і вибір залежить від ваших потреб та бюджету.

AI 2026: Чи Готові Ми до Ери Цифрових Супергероїв Google?

ШІ говорить SQL: Революція в аналізі даних

Чи настав час вірити в AGI? Розбираємо заяву Integral AI та роздуми про майбутнє штучного інтелекту.

AI 2026: Чи Готові Ми до Ери Цифрових Супергероїв Google?

ШІ говорить SQL: Революція в аналізі даних

Чи настав час вірити в AGI? Розбираємо заяву Integral AI та роздуми про майбутнє штучного інтелекту.

Популярні

Мистецтво майбутнього: 50 креативних стилів генерації зображень з ChatGPT та Sora

Від нуля до майстерності: Подорож у світ автоматизації з N8N

Клод 4: ШІ, який мислить, відчуває та ставить під сумнів реальність

Підпишіться