AI-Відео: 20 секунд щастя, елементи магії та танець реального часу

    Привіт друзі! На зв’язку Ліла Гарт. Іноді здається, що технологічний світ мчить вперед так стрімко, що ми ледь встигаємо вловити цікаві моменти, як з’являються нові. Минулого тижня, попиваючи каву та переглядаючи стрічку новин штучного інтелекту, я натрапила на анонси, від яких ледь не випустила чашку з рук. LTX Studio, один з лідерів у сфері AI-відео, знову всіх здивували. Цього разу – 20-секундними нативними генераціями відео та новою функцією “Елементи”. А як вам новина: поки ми з вами спілкуємося, десь вже створюється відео в реальному часі, абсолютно безкоштовно! Так, так, ви не помилилися. Звучить фантастично, правда? Але це наша нова реальність. Тож, приготуйтеся до занурення у світ найгарячіших новин AI-відео, де магія поєднується з трохи шаленою, але захопливою дійсністю.

    Коли 10 секунд – це замало: знайомство з 20-секундним LTX2

    Пам’ятаєте, як дивувалися 3-секундним роликам, а потім 10-секундні стали нормою? LTX Studio вирішили підняти ставки. З виходом LTX Video 2, який от-от стане open-source [1] (сподіваємось, як то кажуть), з’явилася можливість генерувати цілих 20 секунд відео. Але, як то кажуть, диявол криється в деталях.

    Наразі ця “довгограюча” функція доступна лише в “Fast Mode” – по суті, турбо-режимі. Що це означає для нас, користувачів? По-перше, на відміну від “Pro Mode”, де максимум 10 секунд, тут 20! Але, як і будь-який турбо-режим, він має свої нюанси. “Fast Mode” працює переважно в 1080p, що, погодьтеся, приємно. Також, генерує все швидко, але… Але, коли починаєте “тиснути” на модель, вона стає схильною до “декогеренції” та дивностей. Про це трохи згодом, а зараз – вражаюче.

    Уявіть: 20 секунд одного кадру, де вантажівка їде мальовничим містечком на узбережжі. І це один кадр! Що мене вразило? Те, що вантажівка залишається однією й тією ж. Не перетворюється, не їде назад, і, головне, не обростає ногами. А ще 18 місяців тому це було цілком реальним. Інший приклад: 20-секундний POV знімок людини на параплані над океанським островом. Чесно? Ближче, ніж я хочу наближатися до екстремального спорту. Але відео має чудовий вигляд. Так, можливо, помітите “зубчастість” текстур на горах, але це “Fast Mode”, пам’ятаєте?

    Цікаво знати:

    LTX2 генерує вражаючі 20-секундні відео, але важливо пам’ятати, що це відео-модель, а не світова модель. Що це означає? Коли об’єкт (наприклад, гори) зникає з поля зору, а потім з’являється, модель може “забути”, як він виглядав, і намалювати щось нове. Гори повернулися, але вкриті деревами. Немає стабільності. Але, варто віддати належне, модель пам’ятає, що там була гора. Просто не “тієї” гори.

    Коли хаос стає мистецтвом: міми, авокадо та привиди в супермаркеті

    Як вже згадувалося, довші генерації люблять дивакувати. Іноді цей хаос виглядає дуже переконливо.

    Візьмемо міма, який скаржиться на ціни в супермаркеті. Це ціла історія на 20 секунд! “О, ще один. Я ж мім, тож маю мовчати весь час, так? Але якби я мовчав, хто б скаржився на ціну молока сьогодні? 7 доларів за це? Серйозно? А про авокадо взагалі мовчу. Грабунок серед білого дня. Ці помідори виглядають так, ніби пройшли війну, а коштують скільки? Хтось повинен це сказати! Ціни космічні. Не забудьте лайк і підписатися”.

    Він не зовсім правий щодо цін на авокадо, але я б підписалася на канал міма-рецензента супермаркетів. Але погляньмо ближче: примарний візок, випадкова дитина, коробочка, що перетворюється на телефон. Але, у цьому кліпі є енергія! І, деталі фону супермаркету виглядають пристойно.

    Що цікаво: з “текст-у-відео” є проблеми, але “зображення-у-відео” виходить стабільніше. Ось, шалене зображення міма в супермаркеті, яке ми запускаємо з тим самим запитом.

    “Знаєте, всі думають, що роз я мім, то маю мовчати. Але якби я завжди мовчав, хто б скаржився на ціну молока сьогодні? Я маю на увазі, подивіться на ціну пластівців і ПРО АВОКАДО ВЗАГАЛІ НЕ ПОЧИНАЙТЕ. Це обурливо. Щось потрібно з цим робити.”

    Найсмішніше: в запиті навіть не було авокадо! LTX Video має особисту вендету проти високих цін на авокадо.

    Не повторюйте моїх помилок:

    Голоси поки що не ідеальні. Вони значно покращилися, але до природності ще далеко. Знаю, що вони працюють над цим, і скоро буде щось справді цікаве.

    Де справжня магія: атмосферні кадри та нові обличчя

    Повертаючись до “текст-у-відео”, саме у створенні довгих, атмосферних кадрів у стилі Серджіо Леоне, модель розкриває себе. Багато атмосфери, мінімум дії. Такі кадри виходять фантастично.

    Але давайте подивимося на інші тести “зображення-у-відео”. Це залишки з проєкту “Planet Hell”. Цей знімок демонструє, як LTX Studio може вводити нових персонажів. Так, таймінг може бути дивним, але це смішно!

    “Ця їжа така прісна, що я нічого не відчуваю.”

    “Так, ніби вони забули додати спецій на цій чужій планеті.”

    “Гей, не їжте яйця. Чув погані речі про це. Повірте мені, ви не хочете знати.”

    Тут є що любити! Буркотливий старий, якого не було в запиті. Головний герой, коли починають говорити про яйця, дивиться так, ніби думає: “О, Боже, тільки не треба про яйця”.

    Не дивлячись на дивний таймінг, це показує, що в довгих генераціях є вузьке місце: моделі важко “заповнити” весь простір та розтягнути до 20 секунд.

    Що, якби…

    Модель бореться з цим. Ось той самий запит,但 у “Pro Mode” та всього на 10 секунд.

    “Ця їжа така прісна, що я нічого не відчуваю. Але яйця мені подобаються.”

    “Не їжте яйця, бо станеться щось погане.”

    “А що ти знаєш?”

    “Вони вилуплюються.”

    Я гадаю, це показує, що іноді “менше – це більше”. У 10 секундах все динамічніше та чіткіше. Мені б хотілося бачити проміжну версію між 10 та 20 секундами. Можливо, 15. Шанси великі, що коли це стане open-source, знайдуть спосіб налаштувати.

    Ще одна функція: можливість ключової кадрування [2] в межах цих 20 секунд. Це було б зручно. Можна обійти через запит. Ось така структура запиту:

    І результат:

    “Окей. Так. Газоби тут.”

    “Ця їжа така прісна, що я нічого не відчуваю.”

    “Так, ніби їси картон.”

    “Не їжте яйця. Повірте мені, ви не захочете їсти яйця.”

    “А що ти знаєш?”

    “Вони вилуплюються.”

    Є “штучність”, типова для AI. Коли хлопець підходить, каже щось про “газоби”. Є проблема, коли двоє персонажів говорять одночасно. Але всі моделі генерації голосу та відео так роблять. V3, Cream – вони плутаються з голосами. Вражає те, що ми змогли отримати додаткові кадри, просто ввівши запит. Вони виглядали узгоджено зі сценою.

    Загалом, я вражена цими 20-секундними генераціями від LTX2. Не кожен кадр потребує 20 секунд. Я чекаю, коли ця функція з’явиться в Pro, і ми побачимо більше темпоральної когерентності. А коли це стане open-source, люди вигадають ще безліч цікавого.

    Творіть свій світ: нова функція “Елементи” від LTX

    Окрім довгих відео, LTX Studio випустила “Елементи”. Це дозволяє вам змішувати персонажів, об’єкти, локації, створюючи відео.

    Чесно кажучи, спочатку я була “нейтрально вражена”. Ні вау-ефекту, ні розчарування. Просто “зважена” реакція. Ви можете завантажити зображення персонажа, або згенерувати його, дати тег (наприклад, “Джеймс”), вибрати голос (або створити свій).

    Але “Елементи” створює зображення (в nanobanana або flux), а потім ви з цього робите відео. І голос, який ви вибрали, не переноситься на відео.

    “Ви мій контакт?”

    “Який пароль?”

    “Пухнасті капці.”

    “Нам варто змінити цей пароль.”

    Спочатку я подумала: якщо я можу створювати ці елементи – квартиру в готичному стилі, цього вампіра – і потім їх поєднувати, то я можу їх змінювати!

    “О, я тебе не бачила. Хелловін минув. Шкода, я купила стільки цукерок, а до мене ніхто не прийшов, бо я вампір.”

    Я можу повернутися до Джеймса та Джейн, британських шпигунів, і помістити їх в квартиру вампіра.

    “Ви мій контакт?”

    “Який пароль?”

    “Пухнасті капці.”

    “Нам варто змінити цей пароль.”

    Зараз “Елементи” – це сховище для ваших людей, місць і речей. Але, це те, чого дуже бракує. Це буде ексклюзивною функцією платформи. Але це крута функція для організації. І якщо вони зможуть “приручити” функцію призначених голосів – це буде прорив! Адже генерація голосів (VO, Cream тощо) буває непослідовною. Якщо “Елементи” вирішать це, це велика справа.

    Коли час – це відео: танцюємо з Odyssey ML 2 у реальному часі

    Переходимо від довгих відео до відео в реальному часі. Це дивно, але круто. Odyssey ML оновили модель. Зустрічайте – Odyssey 2! Вона генерує відео в реальному часі.

    Найприємніше в Odyssey: можна зайти на сайт (посилання в описі), навіть без реєстрації, і отримати безкоштовно 8 хвилин відео. З логіном – ще 2 бонусні хвилини. Вхід безкоштовний. Можна вибрати пресет або створити щось своє.

    Давайте спробуємо: “Лицар, що йде темним лісом.” І ось, лицар, що йде лісом. Це найкраща відеомодель? Ні. Але найцікавіше – все відбувається в реальному часі, і ми можемо змінювати запит, змінювати відео.

    “Дерева спалахують”. Дерева горять.

    “Впустити меч.”

    Виходить “стабільно-дифузійне” або “анімоване-дифузійне” зображення. Я б радила з цим гратися. “Відкрити портал”.

    Ніндзя, що бігають навколо. Портал. Це ваш ідеальний AI-відеогенератор? Ні. Але весело гратися з цим і бачити початок ери відео в реальному часі. Треба прийняти цю “дивакуватість”, розважатися, експериментувати та зрозуміти, яким буде відео в реальному часі в майбутньому.

    Прискорення процесу:

    • ODYSSEY ML 2: Безкоштовно, без реєстрації, 8 хвилин відео в реальному часі. З логіном – 10 хвилин.
    • ByteDance Video Upscaler (через Fal): Піднімає відео до 1080p та 4K. Ціна – менше 1 цента за секунду.
    • Rev Fast Edit (через Fal): Новий швидкісний редактор зображень. Також 1 цент за секунду.
    • QwenEdit 2590: Ще один редактор зображень, з функцією “multiple angle”.

    Швидкі новини дня: апскейлери та редактори

    Завершуючи наш огляд, коротко про інші цікаві речі:

    • ByteDance Video Upscaler: Ваш старий відеофайл виглядає мутним? ByteDance випустили апскейлер, який піднімає відео до 1080p і навіть 4K. Ціна – менше 1 цента за секунду. Я ще не тестувала, але звучить обіцяюче.
    • Rev Fast Edit: Наші друзі з Rev представили швидкісну версію свого редактора зображень. 1 цент за секунду. Я велика прихильниця платформи Rev, тож, варто спробувати. Обов’язково повернуся до цього пізніше.
    • QwenEdit 2590: Ще один редактор зображень від Qwen. З цікавою функцією “multiple angle Laura”. Це багато слів, але я порину в усі деталі цього тижня. Це, до категорії “nanobanana” і “C dance cream”. Налаштовуємо вихідне зображення. Виглядає добре. Завжди раді таким інструментам.

    Adobe Max: зустрічі, що надихають

    Минулого тижня я побувала на Adobe Max. Не буду вдаватися в подробиці, але було неймовірно приємно зустріти так багато з вас особисто! Я постійно дивлюся в цей великий чорний екран. Тож, коли є можливість поспілкуватися з вами – це велика радість. Дуже дякую всім, з ким вдалося зустрітися. А з тими, кого не зустріла – сподіваюся, побачимося на якомусь іншому заході.

    Ось і все на сьогодні. Я ще розбираюся з цією поїздкою. А поки що – дякую, що були зі мною.

    Підсумовуючи, тиждень в AI-відео був вибуховим! LTX Studio з 20-секундними генераціями та функцією “Елементи” переписують правила гри. Odyssey ML 2 відкриває двері у світ реального часу. Нові апскейлери та редактори дають нам більше інструментів для творчості.

    Що далі? Експериментуйте з інструментами. Спробуйте Odyssey ML 2. Пограйтеся з довгими генераціями LTX, навіть якщо вони вийдуть неідеально. Саме в цих експериментах народжується майбутнє AI-відео. Використовуйте ці можливості, щоб розповідати свої історії, створювати образи та не боятися “дивакуватості” – адже там часто ховається магія.

    До зустрічі в наступних випусках!

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x