Ескізи майбутнього: Перші погляди на Midjourney Video та інші яскраві новини світу ШІ відео
З радістю вітаю вас, шановні читачі! Сьогодні, немов у добре налаштованому оркестрі, ми почуємо симфонію з кількох захопливих тем, що хвилюють серця тих, хто стежить за розвитком штучного інтелекту у сфері відео. Підготуйтеся пірнути у світ нововведень, де реальність переплітається з уявою, а креативність розширює горизонти можливого.
Сюрпризи від Midjourney: Перші кроки у світ відео
Першою скрипкою в нашому концерті стане Midjourney, що приносить як приємні сюрпризи, так і гіркі новини. Почнемо з позитиву: перед нами перший погляд на довгоочікуваний Midjourney Video!
Відверто кажучи, ця новина мене здивувала. Все ще зарано виносити остаточні вердикти, адже модель перебуває на етапі тренування. Проте, вже зараз можна помітити деякі риси, які, як я сподіваюся, зроблять Midjourney Video справжнім шедевром.
У нещодавній офіційній презентації представники Midjourney відзначили, що ми, ймовірно, побачимо “багато дивацтв та недосконалостей”. Звісно, очікування повинні відповідати реальності: це лише перша версія.
Проаналізувавши понад 500 відео, згенерованих за допомогою цієї моделі, я обрала ті, що, на мою думку, виглядають найбільш вражаюче. Звісно, я покажу й деякі “дивні” результати, щоб ви мали реалістичне уявлення про картину в цілому.
Перше, що кидається в очі, – це здатність моделі зберігати естетику Midjourney. Знаєте, це той самий унікальний стиль, який ми так любимо. Це далеко не очевидно, якщо брати до уваги те, як швидко може розмиватися суть естетики у інших генераторах, використовуючи картинки, згенеровані Midjourney.
Особливо добре ця модель виглядає при генерації анімації і в стилі аніме. Здається, що саме тут криється її особлива сила. Подивіться, як легко їй вдається зберегти стилістику й текстури. Звісно, не все ідеально. Часом трохи не вистачає динаміки в русі.
До речі, якщо говорити про “фірмових” жінок від Midjourney, то ви тепер можете побачити, як вони кліпають і ледь помітно повертають голову. Здається, продаж серветок для моніторів злетить до небес!
Ще один плюс – гарні зуби! У деяких інших моделях помічала не надто вдале зображення рота. Тут все набагато краще. А ще – руки та пальці! Це неймовірно складна частина для ШІ-генераторів, але Midjourney Video непогано справляється з цим викликом.
Проте, як на мене, головний козир Midjourney Video – це 360-градусні обертання. Якщо ви спробували взяти картинку з Midjourney і провернути її в іншій відеомоделі, то, ймовірно, стикнулися з проблемою: модель намагається домалювати те, чого не бачить, і результат не завжди відповідає естетиці Midjourney. Тут же все генерується нативно, а отже, ідеально узгоджено зі стилем самої платформи.
Варто також відзначити й інтер’єрні сцени та кадри з дронів. Вони виглядають дуже добре, мають “фірмовий” почерк Midjourney.
Стосовно рухів камери, я очікувала чогось більш статичного, але ні! Модель чудово вміє створювати динамічні кадри. Щоправда, на старті не буде жодного контролю над камерою, а промпти будуть середньої ефективності. Але, попри це, з її допомогою можна буде отримати доволі цікаві кадри.
Одна з ключових особливостей – вміння розпізнавати контекст. Подивіться, як модель легко справляється з відео, де жінка в масці має ще одне обличчя. Вона не плутається та анімує тільки те, що потрібно.
Щодо роздільної здатності, то зараз це близько 640х480 пікселів. Яка буде фінальна роздільна здатність – поки що невідомо, але навряд чи вона буде надто високою, можливо, 720. Крім того, на старті не буде й апскейлера. Це потрібно для того, щоб тримати ціни низькими. Голова Midjourney Давид Гольц зазначив, що ви завжди зможете використовувати власний апскейлер.
Ще один важливий момент: Midjourney Video не буде генерувати текст у відео. Звісно, ви зможете імпортувати власні зображення.
Підсумовуючи: Midjourney демонструє свій унікальний почерк! Не думаю, що це генератор, який підкорить світ. Але, як би я сказала своїм дітям: “Нащо нам V3, якщо у нас є V3 вдома?” Midjourney, як завжди, робить все по-своєму, стаючи цим дивним “артистом” у куточку класу. Зараз заплановано 5-секундні відео з низькою роздільною здатністю. Все для того, щоб утримати низькі ціни. Я буду пильно стежити за цією моделлю і обов’язково поділюся з вами всіма новинами.
Судовий позов: Динаміка навколо Midjourney
Але є й сумна новина. Disney та Universal подали до суду на Midjourney, звинувачуючи їх у порушенні авторських прав.
У позові, що містить 110 сторінок, студії вимагають відшкодування збитків, а також заборону на створення певних зображень. Сума відшкодування може сягати $150 000 за кожну роботу, де було використано їхні авторські права.
По суті, Midjourney опинилася в клубі, до якого вже входять OpenAI, Stability (судяться з Getty Images), Suno та Vo (судяться з музичною індустрією), Meta та Perplexity.
Давид Гольц, коментуючи цю ситуацію, зазначив, що не може коментувати юридичні питання, але висловив впевненість, що Midjourney буде працювати ще довго. Подібні справи, як правило, тягнуться довго. Тому, я не думаю, що в найближчому майбутньому щось зміниться.
Новини з інших фронтів: Runway, Korea та Topaz Labs
Тепер перейдемо до інших новин, які також заслуговують на увагу.
Runway: Чат-режим для ще більшої творчості
Runway випустила новий чат-режим, який зараз перебуває в бета-тестуванні. За допомогою цього режиму можна легко перетворювати зображення у відео, використовуючи прості текстові підказки. Ви можете задати певні параметри, наприклад, “створи п’ять різних ракурсів цього персонажа”. Потім ви можете створити послідовний наратив за допомогою чату. Двері до фантазії відчинені!
Crea 1: Штучний інтелект з корейським акцентом
Корея представила свою власну модель для генерації зображень – Crea 1. Її особливість полягає в тому, що картинки виглядають не надто “штучно”. Швидкість генерації становить близько 7 секунд, і що особливо приємно – ця модель безкоштовна!
Ми протестували її на нашому герої в синьому костюмі, котрий зустрів свого друга, вовка. Ми також попросили намалювати вантажівку в цьому ж стилі. Результат – чудовий!
Модель добре справляється з більш сучасними та похмурими зображеннями, як, наприклад, агент ФБР, що п’є каву в кафе на Північному Заході.
Особливо мені сподобалась можливість використовувати власні стилі, згенеровані раніше, а також комбінувати різні стилі для досягнення бажаного результату. На мою думку, це дуже перспективний напрямок!
До речі, платформа Crea дозволяє генерувати відео за допомогою WAN 2.1, дуже недооціненої відеомоделі. Її вартість значно нижча, ніж, наприклад, у V3 або Cling 2.1.
Загалом, Creo 1 дає чудові результати, особливо якщо говорити про фотореалістичність.
Topaz Labs: Апскейлер відео для максимальної якості
Topaz Labs знову в строю! Вони випустили Bloom, креативний апскейлер зображень, а незабаром з’явиться Astra, креативний апскейлер відео.
Astra матиме два режими: точний – для відновлення деталей та збереження загальної цілісності відео, і креативний – для переосмислення та покращення деталей.
Я, звісно, відразу ж почну тестувати креативний режим! Правда, спочатку він підтримуватиме відео до 15 секунд, але з часом це обмеження буде збільшено.
Креативний режим найкраще працюватиме з відео, згенерованими ШІ, але може вносити артефакти та галюцинації в старі відео. Думаю, це може бути цікавий ефект!
Зараз триває запис у список очікування, тому, якщо хочете отримати ранній доступ до Astra, не гайте часу!
ByteDance: новий гравець на ринку
І наостанок – ByteDance представила нову відеомодель під назвою Seed Dance. Вона теж виглядає доволі непогано. Зараз вона навіть займає лідируючі позиції в рейтингах. Поки що я не готова з цим погодитися, але модель дійсно заслуговує на увагу.
Вона зараз доступна в міні-версії на платформі Dreamina. Тому ви можете спробувати її в дії.
Підсумовуючи, тиждень вийшов дуже насиченим. І я впевнена, що це тільки початок! На нас чекає ще багато цікавого.
Дякую за увагу! До нових зустрічей!