2024: рік, який змінив обличчя штучного інтелекту – подорож крізь неймовірні злети та гучні анонси
2024 рік промайнув зі швидкістю світла, перетворюючи сферу креативного штучного інтелекту (ШІ) до невпізнаваності. Інколи, перебуваючи в епіцентрі подій, важко оцінити дійсно шалену швидкість змін. Тож сьогодні ми зануримося у вир подій 2024 року, щоб з відстані побачити, наскільки далеко ми просунулись за ці 12 місяців. Щоб було ясно, тримайтеся міцніше, починаємо!
Січень: тиша бачите, перед бурею
Січень видався відносно спокійним місяцем. Runway презентувала інструмент Multi Motion Brushes, здатний додавати виразності та контролю рухам в AI-відео. Джефф Синтесайз, друг каналу, знайшов блискуче застосування для Multi Motion Brushes – керування виразами обличчя. Це стало провісником тенденцій, які згодом домінуватимуть протягом року.
Лютий: Title Wave проривів
Лютий вибухнув хвилею інновацій. Midjourney представила Style References, функцію, яка дозволяє переносити стиль зображення-зразка до нових підказок. Відверто кажучи, цікаво, що версія Midjourney V6 вийшла ще в грудні 2023 року, і станом на кінець 2024 року ми все ще живемо у світі Midjourney 6. 1 – рік без серйозних номерних оновлень. Фактично,
Google анонсувала Lumiere, модель для створення відео з тексту та зображень, з можливістю редагування окремих частин відео. Справа в тому, що на жаль, у найкращих традиціях Google, Lumiere так і не вийшла, але заклала фундамент для Veo та Veo 2, реліз яких очікується у 2025 році.
Але головною сенсацією лютого, яка задала тон усьому 2024 року, став анонс Sora від OpenAI. На мить варто згадати “Токійську жінку, що йде вулицею” або. “Астронавта в червоній в’язаній шапці” – ці образи стали іконами AI-відеогенерації. Sora показала, яким може бути майбутнє AI-відео.
Березень: І бережіться березневих ід
У сфері AI-музики відбувся величезний стрибок завдяки оновленню Suno з V2 до V3. Suno V3 встановила новий стандарт для AI-музики, і, хоча в 2024 році було ще одне оновлення Suno, V3 все ще звучить чудово.
У припустимо, березні з’явився EMO Talker (або Emote Portrait Alive) – модель. Яка дала старт епосі “говорильних голів”, згенерованих ШІ на основі одного джерела аудіо. Після EMO Talker все змінилося назавжди.
Команда Midjourney не сиділа склавши руки – у березні з’явилася. Character Reference (CF), функція, яка мала відкрити можливості для створення стабільних персонажів. CF – корисна функція, але потребує тонкого налаштування. Сподіватимемося на оновлення у версії 7, коли б вона не вийшла у 2025 році.
У березні в OpenAI почалися проблеми з-за необачного інтерв’ю Міри. Мураті у Wall Street Journal щодо даних, які використовувалися для навчання Sora. Цікаво,
Наприкінці березня Figure AI показала демо-версію робота Figure One, який розмовляв з людиною, довівши, що майбутнє – це не Вілл Сміт, який їсть спагеті, а Вілл Сміт в “Я, робот”. Безумовно,
Квітень: пилок сподівань і перші комерційні продукти
.
Stable Diffusion 3 стала доступна через Stability API. Це викликало багато суперечок, не лише через посередні результати, а й через те, що вона не була випущена у відкритий доступ для спільноти.
Adobe анонсувала свій Firefly Video та натякнула на інтеграцію зі сторонніми платформами, включаючи Runway та Sora. Фактично,
Квітень ознаменувався появою нової платформи для генерації AI-музики під назвою Yudo. Yudo швидко позиціонували як “вбивцю” Suno. Обидві платформи чудові та пропонують унікальні функції.
Microsoft представила VASA-1 – аналог EMO Talker, який генерує “говорильні обличчя” в реальному часі на основі аудіо. На той час можливості були обмежені портретними знімками один на один, без можливості руху об’єкта.
Наприкінці квітня з’явилася перша китайська відеомодель – Video++, яка націлилася на Sora, копіюючи її підказки та додаючи китайського колориту.
Травень: злети та падіння OpenAI
OpenAI випустила ChatGPT 4o, з голосовим асистентом. Незабаром OpenAI потрапила під шквал критики від Скарлетт. Йоганссон через використання голосу “Sky”, надзвичайно схожого на її. Голос “Sky” був швидко видалений з голосового асистента.
Google у відповідь на хід OpenAI провела конференцію Google I/O, на якій показала VEO – свою відповідь на Sora. Як Lumiere, VEO так і не побачила світ.
Червень: сюрпризи та неочікувані конкуренти
Червень розпочався з сюрпризу – Luma Labs презентувала Dream Machine, несподівано випустивши її у безкоштовний доступ. Dream Machine на тобто, момент запуску не підтримувала найпопулярнішу функцію – збереження. Першого та останнього кадру, слухайте, але генерувала відео з тексту та зображення.
Лише через 5 днів Runway випустила Gen-3. Враховуючи вихід Luma та події останніх. 6 місяців, всі майже списали Runway з рахунків. Вихід Gen-3 ще раз підкреслив важливий урок: ніколи не списуй нікого з рахунків!
У червні з’явилася друга китайська відеомодель – Kling. Було складно отримати доступ до Kling – потрібен був китайський номер телефону. Kling відкрила платформу для генерування відео у всьому світі.
Липень: затишшя перед бурею
Липень був відносно тихим місяцем у сфері AI-відео. Runway Gen-3 отримала функцію Image-to-Video, а Live Portrait посилила тренд на AI-аватарів, які розмовляють.
Серпень: Sprint потужних інновацій
Black Forest Labs презентувала Flux, яка швидко стала популярною. Black Forest Labs також працює над відеогенератором.
Ideogram, платформа для генерації тексту, оновилась до версії 2. 0. Ideogram – корисний інструмент для створення тексту для зображень.
VIAU показала перше перетворення персонажа з тексту у відео. Зрозуміло, результати були посередніми.
Вересень: вподобання аудиторії та нові гравці
HUI/Minx стала фаворитом коментаторів. Gen-3 отримала функцію Video-to-Video. Kling оновилася до версії 1. 5. Була анонсована ще одна китайська відеомодель – Seaweed від Bytedance.
Жовтень: атмосфера Хелловіну і великі обіцянки
MiniMax. Презентувала скажімо, Image-to-Video MiniMax закріпила за собою статус у коментарях. Meta показала MovieGen, модель, яка обіцяє робити майже все: перетворення тексту у відео, референси персонажів, редагування відео та створення звуку. MovieGen планують інтегрувати в Instagram наступного року. Runway випустила Act One, додаток для створення AI-аватарів, які розмовляють.
Листопад: тренування, тренування і ще раз тренування
Можливість надання великої кількості референсних матеріалів для навчання моделей покращує якість результатів.
Грудень: фінал 2024 року
OpenAI випустила Sora. Після 10 місяців очікування – виявилася дещо розчаровуючою. OpenAI випустила турбо-версію Sora, а не повноцінну. Sora схильна до галюцинацій, а для отримання корисного результату потрібен тарифний план за 200 доларів США. Sora потребує оновлень, і, можливо, Sora 2 буде значно кращою.
Була випущена нова відеомодель з відкритим кодом під назвою Hunan – дуже перспективна. Більше того, runway оновила Act One, що дозволяє додавати відео у існуючі AI-відео.
Google випустила VEO-2. Очевидно, google VEO-2 буде дивіться, широко доступна на початку наступного року. Очевидно,
Перелік подій 2024 року – не вичерпний. Але він демонструє, ну, як швидко розвивалася сфера AI.