Космос у ваших руках: Експерименти з нейромережею, що перетворюють текст на відео
Привіт, любі друзі! Сьогодні у нас на горизонті блискучий котик у капелюсі, а його автором є NVIDIA’s Cosmos – нова відкрита модель штучного інтелекту, що генерує відео з тексту. Так, ви все правильно почули! І сьогодні ми зануримось у захопливий світ, як ця дивовижна технологія працює у вашому ComfyUI. А якщо ви, як і я, любите добрі жарти, то: чому коти не грають у покер у джунглях? Тому що там забагато гепардів! (Хм, погано, я знаю…).
Але повернімося до серйозних речей! Сьогодні ми будемо експериментувати з цією нейромережею, яка, на мою думку, має величезнтий потенціал. Хоча, спочатку, мушу зізнатися, були й невдалі спроби. Пам’ятаєте котика в капелюсі з першого разу? У нього хвіст виглядав з вікна! (Сміх). Ну, нічого, ми ж експериментатори!
Що таке Nvidia Cosmos?
Nvidia випустила свою модель Cosmos з відкритим кодом, і це значна подія у світі ШІ. Ось, погляньте, як це виглядає на прикладі з блогу ComfyUI (тут повинно було б бути посилання, але, мабуть, його ще немає – прим. перекладача). Хоч і з невеличкою роздільною здатністю, але загалом зображення виглядають досить реалістично. І це ще версія 7B! Існує ще й 14B, яка ще могутніша.
Отже, у нас є дві версії: 7B, об’ємом 14 Гб, та 14B, об’ємом 28.5 Гб. І, що найцікавіше, вони працюють з текстом у відео та відео у відео! Я сама вже тестую 7B, але якщо у вас потужна машина або хмарне рішення з великою кількістю пам’яті, сміливо беріться за 14B!
З того, що я знаю – Nvidia називає ці моделі “світовими”, і вони дійсно надзвичайно добрі. Навіть, якщо сказати – передові на сьогоднішній день. ComfyUI на разі підтримує 7B та 14B для генерації тексту у відео та зображення у відео, що вже дуже захопливо.
Чому Nvidia Cosmos – одна з найкращих відкритих відео моделей?
- Ефективність: Модель може працювати з відео розміром 1280×704 пікселів зі швидкістю 121 кадр/с на відеокарті з 12 Гб пам’яті. Це вражає!
- Економія пам’яті: Nvidia стверджує, що Cosmos в 50 разів ефективніша за відео-кодек NVIDIA.
Важливі технічні моменти
Пам’ятайте, що ця модель найкраще працює з 121 кадром в секунду. Якщо ви спробуєте щось інше, можуть виникнути проблеми. Найнижча роздільна здатність, з якою вона працює – 704×704. Також, для отримання кращих результатів потрібні довгі, детальні підказки. Я, наприклад, попросила ChatGPT допомогти мені з ними, поки експериментувала.
Як встановити Nvidia Cosmos у ComfyUI
Ось що вам знадобиться:
- Завантажте Workflow: Посилання на нього буде в описі під відео.
- Завантажте Text Encoder: Завантажте файл, та помістіть його у папку
comfy\models\text_encoders
. - Завантажте VAE: Завантажте цей файл (іконка завантаження під відео), та розмістіть його у папку
comfy\models\vae
. - Завантажте Diffusion Model: У вас є два варіанти: Text-to-Video або Video-to-Video. Завантажуйте той, що вам потрібен, або обидва, та помістіть їх у папку
comfy\models\diffusion
.
Виникають труднощі з встановленням? У вас немає ComfyUI? Не хвилюйтесь! Просто пошукайте в YouTube відео про встановлення ComfyUI. Я, можливо, також залишу відповідне посилання в описі до цього відео.
Покрокова інструкція:
- Оновіть ComfyUI: Це можна зробити, відкривши командний рядок (CMD) в папці ComfyUI, та ввівши команду
git pull
. Переконайтеся, що ComfyUI перезавантажено після оновлення. - Завантажте Workflow: Перетягніть завантажений файл workflow в інтерфейс ComfyUI.
- Налаштуйте параметри: Налаштуйте підказку (prompt) так, як вам потрібно. Ви можете змінити ширину і висоту, але пам’ятайте, що найнижча роздільна здатність – 704. Максимальна – 1280×704.
- Запускайте та експериментуйте!
Що робити, якщо ваш комп’ютер не справляється?
Не засмучуйтесь, якщо ваш комп’ютер недостатньо потужний. У мене є для вас партнерське посилання на Think Diffusion, де ви зможете запустити ComfyUI на потужній машині. Вони пропонують потужні GPU, і, хоча, як мені сказали, з’являться ще потужніші варіанти. Це чудовий спосіб випробувати відкриті інструменти! Хоча сервіси, як Runway чи Minimax працюють швидше, але перевага власного, відкритого коду – це велика справа!
Заключення
Ось, власне, і все! Сподіваюся, вам було цікаво. Дякую за перегляд! До зустрічі в наступному відео! До зустрічі!