Світло та Тіні Штучного Розуму: Занурення у Відео-Магію з Tm
Зустрічайте, друзі! Сьогодні я, Ліла Гарт, проведу вас крізь заплутані стежки штучного інтелекту, де реальність переплітається з цифровими мріями. Ми поринемо у світ відео-генерації, з усіма його блискучими перспективами та деякими кумедними, хоч і миттєво забутими, невдачами. Наш провідник – харизматичний Tm, чий носовий шрам – як маленький штрих у великій картині, свідчить про те, що навіть у найсучасніших технологіях є місце для людських історій. Тож, заварюйте собі каву, влаштовуйтесь зручніше, і давайте вирушати!
Нова Ера Відео: Seance та Його Заплутаний Шлях
Tm розпочинає розповідь з Seance, новим відео-генератором від ByteDance. Його поява, за словами Tm, була “хаотичною”. Спочатку було дві версії: Pro та Mini. Дивно, але саме Mini була доступна на власній платформі BiteDance – Dreamina, а Pro – через API на різноманітних платформах. На початку виникали проблеми з API, що призводило до помилок та зворотного зв’язку. Це той випадок, коли технічні негаразди можуть розчарувати. Але, на щастя, все було виправлено, і Seance Pro вже доступний у широкому доступі (на платформах, таких як Openart.ai та replicate).
Tm випробував його на Korea, де мав “кредити для спалювання” (хто з нас не мав такої пристрасті до цифрових творів?). Саме з Korea розпочинаються перші враження, і треба сказати, що вони дещо “підводять” щодо текст-у-відео функцій.
Від Тексту до Відео: Початок Шляху
Першим викликом стало перетворення текстового опису у відео. Tm спробував описати “чоловіка в синьому діловому костюмі, який йде вулицею в Лас-Вегасі, а за ним тікає наречена”. Результат вийшов… ну, не катастрофічним, але й не таким, як очікувалось. Когерентність з описом є, персонажі присутні, але навколишнє середовище не дуже схоже на Вегас.
Tm робить важливий висновок: мінімальне текстове введення у генерацію відео не працює, принаймні, з цією моделлю.
Щоб отримати кращі результати, необхідно використовувати детальніші описи. Як приклад, він наводить відео у стилі “Баффі – переможниця вампірів” у форматі “знайдених кадрів”. Тут вже все значно краще: Json-формат тексту працює дуже добре. Tm також надає посилання на відео, де він детально розказує про JSON-підхід. Звичайно, існують обмеження: модель все одно вирішує, що показати. Так, монстр в одному з відео був не таким, як задумував Tm, як і статуя Свободи без голови. Але, загалом, JSON-команди працюють.
Image-to-Video: Коли Образ Оживає
Найбільше модель вразила Tm у сегменті перетворення зображень у відео. Хороша новина полягає в тому, що платформа Korea нещодавно випустила нову модель генерації зображень – Crea 1.
Tm показує нам чудові приклади з використанням Crea 1. За його словами, ці зображення з’являються з ефектом фотографічної якості. Він просто наводить деякі прості описи, такі як “сцена з кримінального фільму 1980-х років”. І результат, дійсно, захоплюючий!
Коли Tm застосував ці зображення у відео, можливості здивували. Хоча анімація не завжди ідеальна (персонажі “застигають”, повторюють рухи, але це незначні деталі), загальний ефект дуже хороший. Є деякі затримки, але загалом, можливості вражають.
Особливо Tm відзначає чудовий ефект “зернистості плівки”, який додає відео атмосферності та ностальгії. Для поціновувачів кінематографу – це як “вінтажна родзинка”.
Бойові сцени та “Блюр” Кулаків: Мистецтво Рухів
Tm також випробував модель у створенні динамічних сцен. Результати виявились не повністю ідеальними, з характерними для цього типу генераторів проблемами (наприклад, кулаки проходять крізь тіла). Але загальний прогрес вражає, особливо якщо порівнювати з можливостями, які були ще вісім місяців тому. Ефект “змазаних кулаків” (blurring fists) став навіть кумедним. І цей ефект, мабуть, буде ідеальним слоганом для фільму про кунг-фу.
Навіть сама ідея створення бойової сцени є значним кроком вперед. Обмеження є, але прогрес очевидний.
“Сцена з кунг-фу, звісно, не змусить повірити у реальність, але загалом – так набагато краще, ніж було”, – з висновком експерта важко не погодитись.
Image to Video в Замедленому Русі:
Цікавим є і підхід до відтворення image-to-video в повільному темпі. Є деякі “зіткнення” з об’єктами, але багато чого в цьому є позитивним.
Лиць часто міняли вираз, повернувшись до камери через деякий час. Маючи це, можливо, є сенс вийняти з відео окремі фрагменти, прискорити їх, і отримати класний бій.
Дві Думки Перед “Суперсилою”
-
Погляд Оператора: Tm відзначає “старомодний” підхід Sea Dance. Замість різких рухів камери, характерних для інших моделей, Sea Dance віддає перевагу тонким та спокійним кадрам. Tm називає це “освіжаючою” якістю.
-
Акторська Майстерність та Емоції: Модель добре передає акторську гру, коли об’єкти створюються навколо емоцій та дій персонажів. Tm використовує приклад з драматичною сценою, де герой ділиться своїми думками.
Sea Dance: “Суперсила” – Розрізи та Переходи
Переходи та розрізи, які вміє робити програма, стали справжньою “суперсилою” Seance. Модель дозволяє вставити зображення на початку опису, а потім – перехід до нової дії. Ось тут і розкривається справжня чарівність!
Tm використовує приклад, де жінка з’являється в кадрі після вказаного переходу. Це працює приблизно на п’ятій секунді відео, де модель, ймовірно, виконує “перехід”.
Tm назвав це “цікавим та хитрим способом”.
Приклад – знімок в стилі “Орієнт Експрес”. Tm хоче створити сцену вбивства, проте результати виявили кілька недоліків: як і в попередньому відео, герой був одягнений у куртку зворотно, що, можливо, є ключем, а далі – виглядає як людина, котра розвиває новий спосіб вейпінгу.
Ціна Питання: Туман Війни
Він описує вартість генерації відео як “туман війни” через платформу, API та системи кредитів. Tm, на основі досвіду з Korea, стверджує, що це в 10 разів дешевше, ніж V3, і працює значно швидше.
На жаль, Тм не може назвати точну цифру, проте він закликає глядачів поділитися власним фінансовим досвідом у коментарях.
Програми, розрізи, переходи, емоції, – все це створює відчуття глибини, яке, без сумніву, привертає увагу глядачів до генерації відео.
Реальний Час та Голос: Погляд в Майбутнє
Тепер Tm переходить до перевірки можливостей створення AI відео в режимі реального часу, керованих голосом.
РеCraft : Інструмент для Майстрів та Творців
Tm згадує ReCraft, платформу, яку він вже висвітлював на своєму каналі, і яку він дуже цінує. ReCraft нещодавно додав підтримку редагування підказками.
Для новачків – це дозволяє змінювати зображення за допомогою простих текстових команд. Розглянемо приклад:
- Tm використовує зображення кіберпанкової жінки з довгим білим волоссям, яку він створив в Hydream.
- Він натискає кнопку “Редагувати” і вибирає “Flux”.
- Він просить змінити колір волосся жінки на червоний.
- Після декількох секунд з’являється результат: зміна кольору волосся з одного до іншого.
Далі можна працювати далі з тими ж образами.
Ще одна цінна здатність – поєднання GPT4 та context. Останній ідеально підходить для маніпуляцій з зображеннями, а GPT4-0 – для роботи з описом.
Поєднання Штучного Інтелекту та Векторної Графіки: Приклад з ReCraft
У ReCraft можна створювати векторизовані зображення, які потім можна експортувати як файли SVG для редагування в Illustrator. Хоча сам Tm не є експертом в Illustrator, він показує, наскільки широкі можливості для творчості надає платформа.
ReCraft пропонує систему стилів і дизайну.
Tm надає глядачам промокод на знижку та рекомендує спробувати платформу.
DreamStream: Калейдоскоп Сновидінь
Tm завершує огляд DreamStream – платформою від Dream Computing, що ще знаходиться у стані бета-тестування.
DreamStream нагадує “morphy” анімацію, де все залежить від слів, які ви вимовляєте. Хоча затримка є, але результат досить цікавий.
В контексті подій – це виглядає особливо круто. Цим можна розважати гостей. І, до речі, це обладнання хочуть продавати.
Обробка з Astra збільшує глибину зображення.
Підсумки
Tm підсумовує, що Seance демонструє вражаючий прогрес, особливо в сфері роботи із зображеннями. Хоч і є проблеми, які треба вирішити, загалом майбутнє виглядає яскравим.
Tm згадує, що у найближчі плани входять численні роботи та справи.
Я, Ліла Гарт, щиро дякую Tm за цей захоплюючий огляд. Нехай ваші подорожі в світ штучного інтелекту завжди будуть сповнені натхнення та відкриттів! До нових зустрічей!