Звісно, ось стаття, написана у стилі Ліли Гарт, з використанням наданої стенограми:
Розриваючи Невидиму Стіну: Нова Ера Штучного Інтелекту у Відео
У світі, де секунди перетворюються на цілі епохи, а штучний інтелект старанно майструє наше майбутнє, нещодавно з’явилася новина, яка змусила мене затамувати подих. Ми довгий час мали справу з обмеженнями: створити відео з допомогою ШІ, тривалістю лише в кілька секунд. З трьох, п’яти, а потім – десять. Здавалося, це була незламна межа. Але, як і завжди, людський розум невпинний, і стіна впала. Відео довжиною у хвилину з’явилося на наших екранах, прямо з кухні відкритих джерел.
Я бачила, як еволюціонує світ ШІ-відео. Згадую ті перші несміливі спроби, коли 3 секунди були вершиною творчості. Потім, як ми раділи п’яти секундам, а тепер уже на 10 секундах відчували себе майже в раю. Ми навчилися і розширеним функціям, і хитрощам з використанням старої доброї “останній кадр – перший кадр”. Але справжнє, “однокадрове”, довге відео – це було щось недосяжне… дотепер.
Забудьте про теоретичні статті та експерименти в лабораторіях. Це не просто концепція, а інструмент, який ви можете спробувати вже зараз… безкоштовно! І, що ще краще, у більшості з вас є обладнання, на якому це буде працювати.
Я відчуваю трепет, пишучи ці рядки. Це нове програмне забезпечення, яке називається Frame Pack, готове перевернути уявлення про створення відео за допомогою штучного інтелекту. Щоб було зрозуміло: ми говоримо про відео тривалістю до хвилини та далі.
Як це працює? Погляд за лаштунки магії
Перше враження – це магія. Але за кожним дивом стоїть наука. Frame Pack вирішує одну з найбільших проблем сучасних моделей ШІ для відео – дрейф і забування.
Зазвичай, з плином часу, моделі стають менш уважними до попередніх кадрів, що призводить до погіршення якості, розмиття та загальної втрати когерентності. Іноді це може бути забавно, непередбачувано, але частіше – зовсім не те, чого ми прагнемо.
Frame Pack підходить до відео з позиції дзен-буддизму: що, якби важливість кадрів не підкорялася простій формулі “останній кадр – наступний кадр”?
Заглиблюючись у технічні аспекти, відкриваємо для себе анти-дрейфове семплювання та інвертоване анти-дрейфове семплювання. Звучить як назва альбому Radiohead? Можливо. Але суть у тому, що модель генерує перший і останній кадр відео, а потім працює двонаправлено, щоб заповнити простір між ними. Ідея геніальна, і результат – значно більша узгодженість.
Вимоги та шлях до запуску
Frame Pack досить щедрий до обладнання. Він буде працювати на картах Nvidia серій 30, 40 та 50 з мінімум 6 ГБ пам’яті. Так, 6 ГБ, без помилок! Навіть відеокарти ноутбуків підійдуть!
Найпростіший спосіб запустити цю красуню – через Pinocchio. Це чудовий проєкт, який полегшує встановлення програм з відкритим вихідним кодом. Не можу сказати, що це установка в один клік, але дуже близько до цього.
Важливо знати: Pinocchio працює тільки з картами Nvidia. Якщо у вас MacBook, не турбуйтеся – є й інші варіанти!
Попереджаю: встановлення через Pinocchio займе приблизно 48 гігабайт дискового простору. Тож очистіть папку завантажень! Причина великого розміру – включення відеомоделі Hunan.
Якщо ви новачок у Pinocchio, будьте готові до захопливого завантаження різних моделей. Juan 2.1, новий Uno – все тут! Також можна встановити ComfyUI, якщо ви хочете.
Але що робити, якщо у вас Mac та немає Nvidia? Не проблема. Тоді нам допоможе Hugging Face. Там ви зможете клонувати простір. Для цього:
- Перейдіть на вкладку “Spaces” і натисніть на “Video Generation”.
- Знайдіть потрібну вам модель (у відео є посилання на одну з робочих моделей).
- Натисніть кнопку “Duplicate this space”.
- Назвіть свій простір та встановіть видимість “private”.
- Для апаратного забезпечення простору раджу використати Nvidia 1XL4, що коштує трохи більше, ніж 80 центів на годину.
Ви, звичайно, орендуєте графічний процесор. Якщо виникнуть помилки під час встановлення, можна змінити графічний процесор у налаштуваннях. У відео автор використовує Nvidia 1XL 405, що коштує 1,80 долара на годину. Ви можете експериментувати зі швидкістю генерації відео та оплатою за годину.
У налаштуваннях рекомендую встановити час сну хоча б на годину, щоб не витрачати гроші.
Використання Frame Pack: Просто та ефективно
Як тільки все буде встановлено, використання Frame Pack – просте і захопливе.
- Завантажте зображення.
- Можна використовувати tca-cache. Якщо виникають проблеми з розмитими руками, спробуйте вимкнути tca-cache, хоча це може збільшити час генерації.
- Встановіть загальну тривалість відео (до 120 секунд!).
- Пишіть прості та зрозумілі підказки.
- Натисніть “Start Generation”.
Під час створення ви побачите “next latence”, що показує, як модель планує майбутнє.
Важливі поради
- Для того, щоб оцінити роботу моделі, рекомендується спочатку генерувати короткі відео (3-4 секунди) з певним зображенням, а потім уже переходити до більш тривалої генерації з цим зображенням.
- Зверніть увагу на можливості налаштування. Можна регулювати параметри, такі як TCS A. Експерименти показують, що вимкнення TCS A у деяких випадках дає кращі результати, особливо з чіткими деталями, хоча це може збільшити час обробки.
- Будьте обережні з рухом камери. Модель, здається, краще працює зі статичними кадрами.
Експерименти та демонстрації
Покажу вам приклади, які мене вразили.
- Відео з піском в пісочному годиннику (32 секунди). Підказка: “Жінка тримає пісочний годинник. Пісок сиплеться. Вона чарівно поводиться”.
Результат: Жінка на початку трохи беземоційна, але до кінця відео “оживає”.
Висновок: Модель може генерувати відео для створення таймерів! - Детектив (45 секунд). Підказка: “Детектив розмовляє телефоном”. Результат: детектив, цілком звичайний, хоча й трохи інертний.
- Танцююча дівчина (30 секунд). Підказка: “Дівчина танцює”.
Результат: декогерентність, проблеми з рухами, але модель загалом впоралася. - Дівчина з розмитими руками. Щоб виправити розмиття рук, потрібно вимкнути TCA.
- Подорож містом у стилі кіберпанку. Підказка: “Жінка з довгим білим волоссям йде вулицею кіберпанкового міста”. Результат: модель не змогла зробити зйомку в русі. Зображення було в стилі якогось іншого міста, а не кіберпанку.
Висновок: Модель не справляється з рухомими сценами.
Використання та обмеження
Не все ідеально, але можливості вражають.
Frame Pack найкраще підходить для статичних кадрів. Однак це може бути його силою!
Розгляньте роботи Cocktail Peanut, які використовують Frame Pack для створення ілюстрацій та фотографій.
- Ілюстрований стиль – фотографії, що рухаються.
Висновок: Можна генерувати атмосферні короткі відео, наприклад, для каналів на YouTube.
Frame Pack працює дуже добре в атмосферних відео.
Майбутнє відео зі ШІ
Frame Pack з’явився майже відразу після TTT, генератора відео тривалістю в хвилину, який з’явився два тижні тому. Обидва проєкти використовують зовсім різні підходи. Очевидно, що з’явиться ще більше варіацій.
Код Frame Pack відкритий, посилання – нижче. Я впевнена, за кілька місяців ми побачимо ще більше дивовижних речей.
Нехай ця епоха буде сповнена натхненням!