Звісно, ось стаття, написана слухайте, у стилі Ліли Гарт, з використанням наданої стенограми:
Розриваючи Невидиму Стіну: Нова Ера Штучного Інтелекту у Відео
У. Світі, де секунди перетворюються на цілі епохи, а штучний інтелект старанно майструє наше майбутнє, нещодавно з’явилася новина, яка змусила мене затамувати подих. Щоб було ясно, зрозуміло, ми довгий час мали справу з обмеженнями: створити відео з допомогою ШІ, тривалістю лише в кілька секунд. З трьох, п’яти, а потім – десять та здавалося, це була незламна межа. Але, як і завжди, людський розум невпинний, і стіна впала. Цікаво, відео довжиною у хвилину з’явилося на наших екранах, прямо з кухні відкритих джерел.
Я бачила, як еволюціонує світ ШІ-відео. Згадую ті перші несміливі спроби, коли 3 секунди були вершиною творчості. Потім, як ми раділи п’яти секундам, а тепер уже на 10 секундах відчували себе майже в раю. Ми навчилися і розширеним функціям, і хитрощам з використанням старої доброї “останній кадр – перший кадр”. Але справжнє, “однокадрове”, довге відео – це було щось недосяжне. Дотепер.
Забудьте про теоретичні статті та експерименти в лабораторіях, десь так. Це не просто концепція, а інструмент, який ви можете спробувати вже зараз. Безкоштовно! Щоб було ясно, і, що ще краще, у більшості з вас є обладнання, на якому це буде працювати.
Я відчуваю трепет, пишучи ці рядки. Це нове програмне забезпечення, яке називається Frame Pack, готове перевернути уявлення про створення відео за допомогою штучного інтелекту. Щоб було зрозуміло: ми говоримо про відео тривалістю до хвилини та далі. Справа в тому, що
Як це працює? Погляд за лаштунки магії
Перше враження – це магія. Але за кожним дивом стоїть наука. До речі, frame Pack вирішує одну з припустимо, найбільших. Проблем сучасних моделей ШІ для відео – дрейф і забування.
Зазвичай, з плином часу, моделі стають менш уважними до попередніх кадрів, що призводить до погіршення якості, розмиття та загальної втрати когерентності. Іноді це може бути забавно, непередбачувано, але частіше – зовсім не те, чого ми прагнемо. Більше того,
Frame Pack підходить до відео з позиції дзен-буддизму: що, якби. Важливість кадрів не підкорялася простій формулі “останній кадр – наступний кадр”? Простіше кажучи,
Заглиблюючись у технічні аспекти, відкриваємо для себе анти-дрейфове семплювання та інвертоване анти-дрейфове семплювання. Звучить як назва альбому Radiohead бо можливо. Але суть у тому, що модель генерує перший і останній кадр відео. Тобто, а потім працює двонаправлено, щоб заповнити простір між ними, щось на зразок. Ідея геніальна, і результат – значно більша узгодженість.
Вимоги бачите, та шлях до запуску
Frame Pack досить щедрий до обладнання. Він буде працювати на картах Nvidia серій 30. 40 та 50 з мінімум 6 ГБ пам’яті. Так, 6 ГБ, без помилок але навіть відеокарти ноутбуків підійдуть!
Найпростіший спосіб запустити цю красуню – через Pinocchio. Це чудовий проєкт, який полегшує встановлення програм з відкритим вихідним кодом. Дивно, не можу сказати, що це установка в один клік, але дуже близько до цього.
Важливо знати: Pinocchio працює тільки з картами Nvidia. Якщо у вас MacBook, не турбуйтеся – є й інші варіанти!
Попереджаю: встановлення через Pinocchio займе приблизно 48 гігабайт дискового простору. Тож очистіть папку завантажень! Причина великого розміру – включення відеомоделі Hunan.
Якщо ви новачок у Pinocchio, будьте готові до захопливого завантаження різних моделей. Juan 2. 1, новий Uno – загалом, все тут оскільки також можна встановити ComfyUI, якщо ви хочете, щось на зразок.
Але загалом, що наприклад, робити, якщо у вас Mac та немає Nvidia, щось на зразок. Зрозуміло, не проблема. Тоді нам допоможе Hugging Face. Безумовно, там ви зможете клонувати простір. Для цього:
- Перейдіть на вкладку “Spaces” і натисніть на “Video Generation”.
- Знайдіть потрібну вам модель (у відео є посилання на одну з робочих моделей).
- Натисніть кнопку “Duplicate this space”.
- Назвіть свій простір та встановіть видимість “private”.
- Для апаратного забезпечення простору раджу використати Nvidia 1XL4, що коштує трохи більше, ніж 80 центів на годину. Насправді,
Ви, звичайно, орендуєте графічний процесор. Якщо виникнуть помилки під час встановлення, можна змінити графічний процесор у налаштуваннях. Більше того, у відео автор використовує Nvidia 1XL 405, що коштує 1,80 долара на годину. Ви можете експериментувати зі швидкістю генерації відео та оплатою за годину.
У налаштуваннях рекомендую розумієте, встановити час сну хоча б на годину, щоб не витрачати гроші. Дивно,
Використання Frame Pack: Просто та ефективно
Як тільки все буде встановлено, використання Frame Pack – просте і захопливе.
- Завантажте зображення оскільки
- Можна використовувати tca-cache. Якщо виникають проблеми з розмитими руками, спробуйте вимкнути tca-cache, хоча це може збільшити час генерації.
- Встановіть загальну тривалість відео (до 120 секунд! ) тому
- Пишіть прості та зрозумілі підказки.
- Натисніть “Start Generation”.
Під уявіть собі, час створення ви побачите “next latence”, що показує, як модель планує майбутнє. Дивно,
Важливі поради
- Для того, щоб оцінити роботу моделі, рекомендується спочатку генерувати короткі відео (3-4 секунди) з певним зображенням, а потім уже переходити до більш тривалої генерації з цим зображенням.
- Зверніть увагу на можливості налаштування. Можна регулювати параметри, такі як TCS A. Експерименти показують, що вимкнення TCS A у деяких випадках дає кращі результати, особливо з чіткими деталями, хоча це може збільшити час обробки. Справа в тому, що
- Будьте обережні з рухом камери. Модель, здається, краще працює зі статичними кадрами. Безумовно,
Експерименти та демонстрації
Покажу вам приклади, які мене вразили.
- Відео з піском в пісочному годиннику (32 секунди). Підказка: “Жінка тримає пісочний годинник і пісок розумієте, сиплеться тому вона чарівно поводиться”.
Результат: Жінка на початку трохи беземоційна, але до кінця відео “оживає”.
Висновок: Модель може генерувати відео для створення таймерів! До речі, фактично, - Детектив (45 скажімо, секунд) і підказка: “Детектив розмовляє телефоном”. Результат: детектив, цілком звичайний, хоча й трохи інертний. Дивно,
- Танцююча дівчина (30 секунд). Підказка: “Дівчина танцює”.
Результат: декогерентність, проблеми з рухами, але модель впоралася. - Дівчина з розмитими руками тому щоб виправити розмиття рук, потрібно вимкнути TCA.
- Подорож містом у стилі кіберпанку. Підказка: “Жінка з довгим білим волоссям йде вулицею кіберпанкового міста”. Результат: модель не змогла зробити зйомку в русі. Зображення було в стилі якогось іншого міста, а не кіберпанку.
Висновок: Модель не справляється з рухомими сценами. Звичайно,
уявіть собі,
Використання та обмеження
Не все ідеально, але можливості вражають. Простіше кажучи,
Frame Pack найкраще підходить для статичних кадрів. Однак це може бути його силою!
Розгляньте роботи Cocktail Peanut, які використовують Frame Pack для створення ілюстрацій та фотографій.
- Ілюстрований стиль – фотографії, що рухаються. Безумовно,
Висновок: Можна бачите, генерувати атмосферні короткі відео, наприклад, для каналів на YouTube.
Frame Pack працює дуже добре в атмосферних відео.
Майбутнє відео зі ШІ
Frame Pack з’явився майже відразу після TTT, генератора відео тривалістю в хвилину, який з’явився два тижні тому. Обидва проєкти використовують зовсім різні підходи і очевидно, що з’явиться ще більше варіацій.
Код Frame Pack відкритий, посилання – нижче. Справа в тому, що я впевнена, за кілька місяців ми побачимо ще більше дивовижних речей.
Нехай ця епоха буде сповнена натхненням!