Зіткнення Образу та Руху: Подорож у Світ AI-Відео з One-Shot-Ju
Привіт, любі друзі! Сьогодні я захоплюю вас у світ дивовижної магії – перетворення простих зображень на захопливі відео зі штучним інтелектом. Останній час захоплююсь неймовірно перспективною новою моделлю
One-Shot-Ju, яка відкриває безмежні можливості для творчості. Ця модель, яка працює у ComfyUI та Swarm, вражає своєю ефективністю та якістю результатів.
Свідчення від Майстрів
Не вірите? Тоді дозвольте процитувати думку, яка мене найбільше вразила: “1.3b дуже близька за якістю до hun, трохи краще, але 14b значно перевищує”. Варто зауважити, що сама фраза звучить досить переконливо.
Відкриваємо Двері у Новий Світ
Щоб розпочати цю захопливу подорож, потрібно виконати декілька простих кроків. Все почнеться з усвідомлення: необхідні посилання на все, що вам потрібно, можна знайти в описі під відео, включно з посиланням на Patreon. Але не хвилюйтеся, цей патреон відкритий та абсолютно безкоштовний!
Створюємо Магію
Уявіть собі – ви завантажуєте зображення. Наприклад, як у відео, ви можете завантажити фотографію жінки у спокусливому котячому костюмі. І ось ви генеруєте, і на виході отримуєте неймовірний результат!
Ви можете робити буквально все, що завгодно. Це дійсно вражає!
Як Запустити у ComfyUI та Swarm?
Для початку потрібно отримати робочий процес, просто перетягнувши його. Можуть з’явитися червоні вузли, але це не страшно! Переконайтеся, що ви вставили менеджер, поновіть все – comy UI, вузли, все до останнього. Потім встановіть відсутні користувацькі вузли через менеджер. Вам може знадобитися перезапустити ComfyUI, і після цього все має бути готово.
Моделі – Ключ до Успіху
Якщо ви використовуєте Swarm, деякі моделі завантажуються автоматично, але не всі. Якщо у вас немає потужного GPU, не хвилюйтеся! Я рекомендую використовувати Think Diffusion у хмарі. В описі ви знайдете партнерське посилання для Think Diffusion, яке дозволить вам отримати знижку 20%! Це чудовий спосіб почати свій шлях у світ відео зі штучним інтелектом.
Щоб завантажити самі файли, потрібно буде виконати декілька простих кроків. По-перше, вам знадобиться завантажити файл “W i2 Fe”, моделлю i2v. Моделі існують у форматі ggf. Якщо у вас система з обмеженим відеопам’яттю, то ви можете завантажити ці ggf. Тоді вам потрібно буде поміняти модель дифузії на unit loader ggf, замінивши деякі параметри.
Якщо у вас потужний GPU, наприклад, 3090, 4090 або щось подібне, що може завантажувати великі моделі fb8, ви можете обрати їх. За посиланням з опису ви зможете завантажити файл i2v 14b. Тут є fp8, тобто 480p, 720p залежно від того, яку роздільну здатність хочете. Завантажте їх у папку “models diffusion models” та скопіюйте прямо туди.
Не забудьте також завантажити clip models, text encoders та vae. Це не потрібно для Swarm, оскільки він завантажує їх автоматично. Але якщо ви використовуєте Comfy, вам потрібно зробити. Завантажуємо Clip Vision, text encoder та VAE. Всі ці файли можна знайти за посиланням нижче.
Ось, наприклад, Clip Vision age, text encoders – можете обрати fp8. Також є fp16, якщо хочете, щось більше. І VAE. Просто помістіть їх у відповідні папки. Коли все буде встановлено, ви побачите щось подібне – неймовірний процес, що розкриває увесь свій потенціал.
Поради для Успішної Генерації
У посібнику є більше інформації, але ми розглянемо більшість з них у відео-посібнику. Я використовую модель 720p. Якщо ви бачите червоні вузли або червоні рамки навколо вузлів, оновіть або перезапустіть Comfy або Swarm і виберіть повторно моделі. Виберіть зображення, яке хочете використовувати, і введіть підказку. Ви можете просто описати людину або рухи камери.
Наприклад, камера повільно обертається вліво. Ми отримали: “Жінка в чорному шкіряному костюмі стоїть високо над кіберпанковим містом, неонові вогні сяють з міста внизу, вона робить селфі своєю камерою”. В результаті вийшло щось подібне, її рука вгорі, як на селфі, і вона позує для камери.
Важливість Розміру
Важливо. Якщо ви завантажуєте зображення, наприклад, 4000 x 4000 пікселів, його потрібно змінити. Ви, звичайно, можете встановити свій розмір, але ми хочемо зберегти пропорції. Якщо у вас зображення 16:9, ви можете використовувати роздільну здатність 1280 x 720. Це дасть найкращу якість. Якщо воно квадратне, можна використовувати, наприклад, 960 на 960. Але на генерацію потрібно багато часу. Генерація зайняла близько 30 хвилин. Ви можете встановити роздільну здатність нижче. Наприклад, 480 x 480 та завантажити модель 480. Це все значно прискорить генерацію.
Китайські Слова?
У робочому процесі є китайські слова. Але це просто слова-заповнювачі, що використовувалися для навчання моделі. Ці слова дозволяють отримати результати, що відповідають вашим очікуванням.
Експерименти з Кадрами
Ось довжина кадру. Це кількість кадрів у вашому відео. Скажімо, 17 кадрів – це 1 секунда. 33 – 2 секунди, 49 – 3 секунди і так далі. Але ви можете сказати, що все це виглядає дивно, оскільки 24 або 25 кадрів становлять секунду. Все вірно. Ця модель навчена на 16 кадрах в секунду. Ми виводимо відео з частотою 16 кадрів на секунду. Тому у нас 17 кадрів на секунду. 16 + 1. 16 + 16 = 32, + 1, що дорівнює 33. Так це працює для цього.
Встановіть свої кадри, і все буде добре із генерацією. Зараз запускається Unit PC, використовуйте Samplers, якщо хочете. CFG 4 добре працює для image to video. Експериментуйте. Для text video за замовчуванням, здається, було 6. Натискайте “Generate” і отримаєте чудову генерацію.
Результати, що Вдихають Життя
Найкраще те, що результати виходять дійсно гарні! Звичайно, у генеративному штучному інтелекті трапляються невдачі, але я отримав багато хороших результатів порівняно з іншими моделями. Ця модель не найшвидша, але вона дасть хороший старт та чудовий результат. Отже, вперед до творчості! Створюйте щось цікаве та дивіться на красиве!
Завершальні Штрихи
Дякую за перегляд! Будьте завжди прекрасні!
P.S. Нещодавно знайшла інформацію про те, що можна буде значно пришвидшити ці процеси! Тому обов’язково поділюсь з вами цими відкриттями!