AI-відео: Несподівані гості, магія HDR та порятунок облич – все це за чашкою кави!
Друзі, привіт! Сподіваюся, ваша кава сьогодні міцна й ароматна, адже розкажу такі дивовижні речі, що її гіркота буде дуже доречною. Минулого тижня штучний інтелект у сфері відео витворив таке, від чого голова йде обертом. Це як спостерігати за майстром, котрий легко перетворює глину на мистецький шедевр – тільки замість глини цифри, а замість майстра – алгоритми. Темп змін просто шалений!
Сьогодні ми пірнемо в це з головою. Почнемо з дуже несподіваного гостя, який прийшов до нас на безкоштовний тест-драйв. Він вражає, майже без цензури, але… є один нюанс, який може вам не сподобатися: хто за ним стоїть. Далі нарешті поговоримо про Luma Labs Ray 3, на якого ви так довго чекали, і я знайшов цікавий трюк з ним… Також розглянемо функцію, яку так довго просили: збереження облич персонажів. Так, ви не помилилися, це нарешті сталося! Готові? Мерщій, заварюйте ще кави, бо вирушаємо у захопливу подорож світом AI-відео!
Розділ 1: Привид з минулого чи новий геній? Знайомтесь: Grok Imagine!
Знаєте, інколи трапляється щось дивне: думаєш, що вже все бачив, а тут – бац! – з’являється щось нове, що змушує підняти брови. Саме так сталося минулого тижня, коли я натрапив на новий AI-генератор відео. Перше враження – “Вау!”. Виглядає непогано, вміє генерувати звук, працює без водяних знаків, і, що найголовніше, його можна спробувати безкоштовно [посилання на Grok Imagine]. Жодних запрошень чи кодів. Просто заходь і користуйся.
Але, як кажуть, “не все золото, що блищить”. Розкривши завісу, я побачив, хто стоїть за цим дивом. І тут, друзі, дехто з вас може скривитися. Так, ви правильно здогадалися, це Grok X. Його оновлення 0.9 власної відеомоделі. Я знаю, що засновник Grok – особа… скажімо так, неоднозначна. Але відкладемо особисті симпатії на потім (або назавжди) і зосередимося на тому, що насправді цікавить: хард-роботящі розробники, які намагаються рухати технології вперед. І, мушу визнати, я був приємно здивований цим оновленням 0.9.
Пам’ятаєте, коли я вперше показував Grok Video? Тоді модель була, м’яко кажучи, базовою. Її вже тоді хвалили за нібито здатність генерувати відео зі знаменитостями, які знімають одяг. На ділі ж виходили дивні сцени, де двоє чоловіків одягаються. Єдине, що там реально викликало обурення, – це ті дивні шорти, які вони носили. Єдина унікальна функція тоді – “режим веселощів”, що видавав химерні результати. Але, як показує життя, цю нішу вже впевнено зайняв… ну, ви зрозуміли хто.
Тож, попри все, я справді вражений стрибком, який зробила модель з цим оновленням 0.9. По-перше, швидкість. Генерація займає близько хвилини чи навіть менше! По-друге, стиль. Вона дивовижно добре тримає естетику. Чесно кажучи, вона майже прямий конкурент відеогенератора від Midjourney. Є навіть певні подібності. Як і Midjourney, Grok видає відео приблизно в 480p. Для хорошої презентації знадобиться апскейлінг, але приємно, що підтримуються різні співвідношення сторін, включно з 9:16.
Але ось що мене здивувало по-справжньому, – дивна особливість інтерфейсу. Чи баг, чи фіча, але генерація починається… без запиту (promptless)! Тобто, ви просто завантажуєте зображення, і воно одразу починає генерувати відео. Давайте навіть зафіксуємо час. Ось, будь ласка – 44 секунди рівно!
І так, відео виходить зі звуком. Давайте послухаємо. [уривок музичного супроводу] Як бачите, модель любить атмосферну, фонову музику. Але, якщо хочете бути більш цілеспрямованими, завжди можна натиснути кнопку “Custom” і написати свій запит. Або перейти в “Fun Mode”, щоб подивитися, що з того вийде.
Ось, результат у “Fun Mode”. Для цих чотирьох хлопців, які ніби працюють в ДАІ у антиутопічному майбутньому, це відео мало б енергію п’ятниці, 5 вечора. І, звісно, ви можете використовувати власні запроси після основного. Наприклад, ми ввели “жінка йде геть, чоловік робить ковток” – ось що вийшло. [відео з чоловіком, що п’є]
Як бачимо, узгодженість запитів досить гарна. Хоча, повторюся, дивний вибір – починати без них. Але, коли генерація займає лише 44 секунди, і часто виходить щось доволі пристойне, то, можливо, це не так вже й погано.
І, звісно, як і очікувалося, коли мова йде про Grok, жодних обмежень щодо модерації. Добре це чи погано – інше питання. Але так, ви не отримаєте відмов через відомі обличчя. Я, правда, не заглиблювався в якісь надто відверті теми, певно, є межі. Тож, будьте обережні, і не кажіть потім, що це я вас штовхнув на неприємності з ФБР.
Знаю, що багато хто з вас ніколи не торкнеться цієї моделі, бо це Grok. І це абсолютно нормально. Як я завжди кажу: “Я є в X, щоб ви не були”. Модель Grok Video доступна безкоштовно, принаймні, так вони кажуть. Але, звісно, є ліміти для безкоштовного рівня – приблизно 10-20 генерацій за 2 години, залежно від навантаження на сервери. Посилання на Grok Imagine – в описі під відео [посилання на Grok Imagine].
Розділ 2: Luma Labs Ray 3: Час розкрити карти та знайти скарб!
Гаразд, тепер до справді цікавих речей. Час нарешті зазирнути до Luma Labs та їхньої моделі Ray 3. Важко заперечувати, що останні тижні були насичені подіями у світі AI-відео. І Ray 3 – це саме те, на що багато хто з вас чекав. Перед тим, як пірнути, невеличке уточнення: я співпрацював з Luma для цього розділу. Але, чесно кажучи, з Luma легко працювати, і цей огляд я б зробив у будь-якому разі.
Отже, для тих, хто ще не в темі, Ray 3 пропонує чимало нових можливостей. По-перше, вбудована модель міркування (reasoning model). По-друге, генерація в HDR. І, нарешті, режим чернетки (draft mode), на який я особисто довго чекав. Модель Ray 3 доступна через API. Можливо, ви вже бачили її десь, але я завжди віддаю перевагу генерації “на головному кораблі” – тобто безпосередньо на їхній платформі [посилання на Luma Labs].
Почнемо з тестів “текст у відео”. Зустрічайте нашого старого знайомого – чоловіка в синьому костюмі, якого ми востаннє бачили, як він блукав по покинутому складу в Зоні 51. Але що це? О, це ж чоловік у зеленому смокінгу! Виявляється, він там працює. І, схоже, він дуже розлючений на жінку в червоній сукні, яка його покинула. Підозрюю, він збирається звинуватити в цьому нашого хлопця.
Скажу чесно, узгодженість запитів у Ray 3 – просто чудова. Я дав йому чимало деталей. Ось, наприклад, запит: “чоловік у зеленому смокінгу в підземному контрольному центрі…”. Не буду читати його повністю, ви все бачите самі. Але що мені по-справжньому подобається в роботі з Dream Machine (платформа Luma), так це оці “бульбашки” ключових слів, які можна змінювати. Наприклад, ось так: “чоловік у чорній військовій формі”, “червоний оксамитовий костюм”. Кожне таке словосполучення має свої варіанти, що робить процес дослідження ідей надзвичайно цікавим, особливо на етапі роздумів.
Наприклад, погравшись, ми можемо отримати ось таке: “чоловік у жовтому захисному костюмі в бункері, що дивиться на розбиті LED-екрани та жінка в червоному плащі. І, звісно, наш вовк, покинутий ангар і знову цей жовтий захисний костюм”.
Але що по-справжньому захоплює, так це спостерігати за роботою моделі міркування. Це неймовірно бачити, як вона “думає”. Ми витратили стільки часу, намагаючись навчити моделі розуміти нас. А тут – зворотний ракурс.
Повертаючись до нашого першого результату. Це 5-секундний кліп. Але це не межа! Ми можемо його подовжити, додавши текстові підказки. Наприклад, наш чоловік у зеленому смокінгу тепер кричить на якихось божевільних вчених. А в фоні – той самий чоловік у синьому костюмі дивиться в камеру і ніби каже: “Привіт? Тут хтось є? Привіт?”. Це просто геніально!
Функція, яка мені також дуже подобається, – режим чернетки. Його можна ввімкнути ось тут, внизу. Усе інше – як зазвичай для тих, хто працював з Dream Machine. Співвідношення сторін, модель міркування чи стандартний Ray 3. Ми лишаємо “міркування”. Про HDR поговоримо трохи згодом.
Спробуємо конкретніший запит. Наприклад, наша героїня – жінка-вікінг. Ми генерували її і в попередній моделі, і в Ray 3. На мою думку, різниця очевидна. Зверніть увагу: я написав “he handheld camera”, а не “a handheld camera” – помилка, одне слово. Але модель зрозуміла! Це показує, наскільки вона стала розумнішою.
Отже, в режимі чернетки ви отримуєте швидший результат, але нижчої роздільної здатності. Звідси ви можете перейти до кнопки “Hi-Fi” та апскейлити до 720p або 1080p. Звісно, є опції HDR, про які ми ще поговоримо. Давайте піднімемо до 1080p. Знаєте, цей варіант мені сподобався навіть більше, тож я його й апскейлив. Вийшло просто чудово!
А що з “зображення в відео”? Ray 3 – це неймовірна модель, яка може створювати дивовижні речі. Ось, один з моїх улюблених недавніх експериментів – “Рестлер Дейва Кларка проти ведмедя”. Це настільки круто, що я можу дивитися це годинами! Хоча, якби це сталося насправді, бій навряд чи тривав би так довго.
Почнемо з простого. Чоловік обертається, дивиться в камеру і йде геть. Результат? Саме те, що ми замовляли. Я завжди захоплююся тим, як моделі обробляють інформацію, якої не мають. Ray 3 не знає, як виглядає цей хлопець. Тому, коли я прошу його обернутися, модель має його “додумати”. Це захоплює.
Ще одна цікава річ – кнопка аудіо. Можна додати звуковий супровід. Наприклад, “міський шум”. [звук міста]
Багато експериментую з додаванням нових, неочікуваних елементів до зображення або локації. Наприклад, це зображення, а ми підходимо до нього як до гібридного тексту в відео. “Двоє майстрів кунг-фу б’ються в цій локації”. І це просто неймовірно! Так, деяка хореографія та фізика можуть бути трохи… дивними. Але це проблема всіх відеомоделей, вони часто “спотикаються” на сценах бійок. Але мене вражає неймовірна енергія генерації та розуміння контексту в Ray 3. Бачимо навіть обертання камери, що показує нам раніше невидимі частини сцени.
Але ось що виділяє Ray 3 серед інших, так це можливість виводити відео в HDR. Абревіатура HDR розшифровується як High Dynamic Range – високий динамічний діапазон, що дозволяє мати значно ширший діапазон кольорів для корекції чи зведення зображень. Якщо думаєте, що це вам не потрібно, бо може бути занадто технічно, – я розумію. Але ось дуже вагомий приклад використання.
Беремо нашу “дівчину з вогнеметом” (знаєте, її багато разів знімали в цьому відео!), і робимо зворотний кадр за допомогою SeaDream. Зверніть увагу на колір неба – він кардинально відрізняється. А тепер, коли ми імпортуємо це в Ray 3 і використовуємо перший та останній кадр, можемо вирівняти колірну температуру неба. Ray 3 – єдине місце, де це можливо! Можна експортувати в HDR, а також у форматі EXR, який використовується для прозорості.
Зараз ми матимемо HDR-вихід. Кольори можуть здаватися трохи приглушеними. Це тому, що далі це відео потрібно буде обробляти в програмах для корекції кольору. Зізнаюся, це не зовсім моя стихія, тому я буду робити це доволі незграбно, використовуючи Adobe Premiere (ох, ті, хто працює з DaVinci Resolve, зараз, напевно, зі мною сміятися!). Але, навіть так, ви можете побачити, що ми маємо значно більше інформації для роботи з експозицією, контрастом, світлими ділянками, кольором тощо.
Отже, якщо ще не пробували Ray 3 – дуже рекомендую спробувати. Подивіться, як він може доповнити ваш креативний AI-стек. Так, вийшло багато нових відеомоделей, але, як я завжди кажу, кожна модель робить щось трохи по-своєму. І я впевнений, що, працюючи з Ray 3, ви знайдете те, що шукали. Посилання, звісно, в описі [посилання на Luma Labs]. І я буду стежити за новинами від Luma Labs.
Розділ 3: Секретний трюк Ray 3: HDR для всіх і кожного! (Швидке доповнення)
До речі, хочу додати одну цікаву деталь. Попередній розділ було записано трохи наперед. Не хочу руйнувати ілюзію безперервності, але я продовжував гратися з Ray 3. Ось що я виявив: ви можете завантажити своє власне відео, створене не в Ray 3, і перетворити його на HDR! Так, обмеження – 5 секунд, але це неймовірно! Тепер маємо HDR-версію кліпу, який не був згенерований в Ray 3. Такий собі маленький, секретний лайфхак.
Розділ 4: Не тільки відео: Рятуємо обличчя в зображеннях за допомогою Topaz Bloom!
Перейдемо до іншої проблеми, яка давно турбує нас у сфері поліпшення зображень. Коли ми використовуємо AI для збільшення роздільної здатності (апскейлінгу), він може творити дива, але інколи… спотворює обличчя персонажів. Це не критика – це завжди була така особливість. Іноді це навіть грає на користь, коли вхідне зображення настільки низької якості, що апскейлер допомагає зробити його хоч придатним для використання. Але, зізнаюся, навіть коли це працює, часто отримуємо “восковий” ефект шкіри.
Але є й хороші новини! Здається, Topaz Labs знайшли рішення цієї проблеми. Вони оновили свій інструмент Bloom (для креативного апскейлінгу) функцією “Preserve Faces” (Зберегти обличчя). Звучить трохи як назва фільму жахів про монстра-мотиватора, але давайте спробуємо [посилання на Topaz Bloom].
Ми протестуємо її на нашій “дівчині з вогнеметом”, яка, як ви, напевно, помітили, вже досить багато часу на екрані у цьому відео. Маємо різні режими: “Subtle” (Ніжний), “Low” (Низький), “Medium” (Середній), “High” (Високий) і “Maximum” (Максимальний) креатив. Можна додавати текстові описи, збільшувати зображення до 8 разів. І, звісно, головні функції: “Preserve faces” та “Preserve color”.
Почнемо з максимуму, як я люблю – усі повзунки на максимум. Ось що вийшло. Спочатку я не був у захваті. Але, мушу визнати, придивившись ближче, був приємно вражений текстурою шкіри та волосся. Так, зміни є, але я ж викрутив усі ручки на максимум!
Тепер знижуємо налаштування до “Low”. І, дивіться, це вже значно краще! Інструмент добре очищує зображення, не змінюючи деталі обличчя. Хоча, помітив невелике зміщення кольору шкіри біля шиї. Наче вона погано нанесла тональний крем.
На вищому рівні, наприклад, “Medium”, помітно, що татуювання теж змінюється. Це варто мати на увазі. Адже функція називається “Зберегти обличчя”, а не “Зберегти татуювання”. Але, на низькому рівні креативності, татуювання не так сильно змінюється, хоча деталі там і так були нечіткі. Воно не перетворюється на щось зовсім інше.
І, звісно, ви, напевно, помітили покращення текстури шиї та волосся. При цьому фон також залишається приємно розмитим (ефект боке).
Вважаю, це дуже корисна функція, особливо коли робите редагування в нано-бананових чи Cadream редакторах, і зображення виходить трохи “м’яким”. Bloom чудово це виправляє. Мені ще треба багато експериментувати, але, здається, цей інструмент – справді перспективний. Обов’язково спробуйте! Є 10 безкоштовних генерацій. Посилання – в описі [посилання на Topaz Bloom].
Розділ 5: Google VEO 3.1: Наближається гроза!
І на завершення – дещо справді захоплююче. Здається, Google VEO 3.1 вже на порозі! Хочу одразу зазначити: зараз багато чуток, спекуляцій і заяв про можливості цієї моделі. Я поки не можу нічого конкретного сказати. Але ось логотип Google DeepMind – Логана Кілгора. Він може.
Найкраще, що можу вам сказати: дочекайтеся офіційного анонсу від Google. І на цьому, друзі, я думаю, будемо прощатися. Дякую, що були зі мною за цією кавою та технологічними історіями. До зустрічі!
Підсумовуючи все вище сказане, ми побачили, як стрімко розвивається світ AI-відео. Від несподіваного, але потужного Grok Imagine, який кидає виклик усталеним нормам, до вдосконаленого Luma Labs Ray 3 з його магією HDR та прихованими функціями. Ми також торкнулися важливої теми збереження автентичності зображень завдяки Topaz Bloom. І, звичайно, зазирнули в майбутнє з чутками про Google VEO 3.1.
У результаті, можна сказати, що кожен з цих інструментів – крок до нових можливостей. Grok може викликати суперечки, але його швидкість та доступність вражають. Luma Labs Ray 3 розширює межі креативності, особливо з HDR. А Topaz Bloom вирішує давню проблему, роблячи AI-апскейлінг більш людяним.
Тож, що далі? Закликаю не стояти осторонь. Спробуйте ці інструменти самі! Завантажте Grok, поекспериментуйте з Ray 3, протестуйте Bloom. Подивіться, як вони можуть допомогти вам у ваших проєктах. Технології не чекають, і чим швидше ми їх опануємо, тим краще зможемо ними скористатися.
Головне, що варто запам’ятати: AI-відео – це вже не далеке майбутнє, це сьогодення. І воно стає все більш доступним, потужним і, що найважливіше, цікавим! Будьте в курсі, експериментуйте, і нехай ваша творчість не знає меж!







