2024: AI-революція – рік проривів та гучних прем'єр

2024: рік, який змінив обличчя штучного інтелекту – подорож крізь неймовірні злети та гучні анонси

2024 рік промайнув зі швидкістю світла, перетворюючи сферу креативного штучного інтелекту (ШІ) до невпізнаваності. Інколи, перебуваючи в епіцентрі подій, важко оцінити дійсно шалену швидкість змін. Тож сьогодні ми зануримося у вир подій 2024 року, щоб з відстані побачити, наскільки далеко ми просунулись за ці 12 місяців. Щоб було ясно, тримайтеся міцніше, починаємо!

Січень: тиша бачите, перед бурею

Січень видався відносно спокійним місяцем. Runway презентувала інструмент Multi Motion Brushes, здатний додавати виразності та контролю рухам в AI-відео. Джефф Синтесайз, друг каналу, знайшов блискуче застосування для Multi Motion Brushes – керування виразами обличчя. Це стало провісником тенденцій, які згодом домінуватимуть протягом року.

Лютий: Title Wave проривів

Лютий вибухнув хвилею інновацій. Midjourney представила Style References, функцію, яка дозволяє переносити стиль зображення-зразка до нових підказок. Відверто кажучи, цікаво, що версія Midjourney V6 вийшла ще в грудні 2023 року, і станом на кінець 2024 року ми все ще живемо у світі Midjourney 6. 1 – рік без серйозних номерних оновлень. Фактично,

Google анонсувала Lumiere, модель для створення відео з тексту та зображень, з можливістю редагування окремих частин відео. Справа в тому, що на жаль, у найкращих традиціях Google, Lumiere так і не вийшла, але заклала фундамент для Veo та Veo 2, реліз яких очікується у 2025 році.

Але головною сенсацією лютого, яка задала тон усьому 2024 року, став анонс Sora від OpenAI. На мить варто згадати “Токійську жінку, що йде вулицею” або. “Астронавта в червоній в’язаній шапці” – ці образи стали іконами AI-відеогенерації. Sora показала, яким може бути майбутнє AI-відео.

Березень: І бережіться березневих ід

У сфері AI-музики відбувся величезний стрибок завдяки оновленню Suno з V2 до V3. Suno V3 встановила новий стандарт для AI-музики, і, хоча в 2024 році було ще одне оновлення Suno, V3 все ще звучить чудово.

У припустимо, березні з’явився EMO Talker (або Emote Portrait Alive) – модель. Яка дала старт епосі “говорильних голів”, згенерованих ШІ на основі одного джерела аудіо. Після EMO Talker все змінилося назавжди.

Команда Midjourney не сиділа склавши руки – у березні з’явилася. Character Reference (CF), функція, яка мала відкрити можливості для створення стабільних персонажів. CF – корисна функція, але потребує тонкого налаштування. Сподіватимемося на оновлення у версії 7, коли б вона не вийшла у 2025 році.

У березні в OpenAI почалися проблеми з-за необачного інтерв’ю Міри. Мураті у Wall Street Journal щодо даних, які використовувалися для навчання Sora. Цікаво,

Наприкінці березня Figure AI показала демо-версію робота Figure One, який розмовляв з людиною, довівши, що майбутнє – це не Вілл Сміт, який їсть спагеті, а Вілл Сміт в “Я, робот”. Безумовно,

Квітень: пилок сподівань і перші комерційні продукти

Stable Diffusion 3 стала доступна через Stability API. Це викликало багато суперечок, не лише через посередні результати, а й через те, що вона не була випущена у відкритий доступ для спільноти.

Adobe анонсувала свій Firefly Video та натякнула на інтеграцію зі сторонніми платформами, включаючи Runway та Sora. Фактично,

Квітень ознаменувався появою нової платформи для генерації AI-музики під назвою Yudo. Yudo швидко позиціонували як “вбивцю” Suno. Обидві платформи чудові та пропонують унікальні функції.

Microsoft представила VASA-1 – аналог EMO Talker, який генерує “говорильні обличчя” в реальному часі на основі аудіо. На той час можливості були обмежені портретними знімками один на один, без можливості руху об’єкта.

Наприкінці квітня з’явилася перша китайська відеомодель – Video++, яка націлилася на Sora, копіюючи її підказки та додаючи китайського колориту.

Травень: злети та падіння OpenAI

OpenAI випустила ChatGPT 4o, з голосовим асистентом. Незабаром OpenAI потрапила під шквал критики від Скарлетт. Йоганссон через використання голосу “Sky”, надзвичайно схожого на її. Голос “Sky” був швидко видалений з голосового асистента.

Google у відповідь на хід OpenAI провела конференцію Google I/O, на якій показала VEO – свою відповідь на Sora. Як Lumiere, VEO так і не побачила світ.

Червень: сюрпризи та неочікувані конкуренти

Червень розпочався з сюрпризу – Luma Labs презентувала Dream Machine, несподівано випустивши її у безкоштовний доступ. Dream Machine на тобто, момент запуску не підтримувала найпопулярнішу функцію – збереження. Першого та останнього кадру, слухайте, але генерувала відео з тексту та зображення.

Лише через 5 днів Runway випустила Gen-3. Враховуючи вихід Luma та події останніх. 6 місяців, всі майже списали Runway з рахунків. Вихід Gen-3 ще раз підкреслив важливий урок: ніколи не списуй нікого з рахунків!

У червні з’явилася друга китайська відеомодель – Kling. Було складно отримати доступ до Kling – потрібен був китайський номер телефону. Kling відкрила платформу для генерування відео у всьому світі.

Липень: затишшя перед бурею

Липень був відносно тихим місяцем у сфері AI-відео. Runway Gen-3 отримала функцію Image-to-Video, а Live Portrait посилила тренд на AI-аватарів, які розмовляють.

Серпень: Sprint потужних інновацій

Black Forest Labs презентувала Flux, яка швидко стала популярною. Black Forest Labs також працює над відеогенератором.

Ideogram, платформа для генерації тексту, оновилась до версії 2. 0. Ideogram – корисний інструмент для створення тексту для зображень.

VIAU показала перше перетворення персонажа з тексту у відео. Зрозуміло, результати були посередніми.

Вересень: вподобання аудиторії та нові гравці

HUI/Minx стала фаворитом коментаторів. Gen-3 отримала функцію Video-to-Video. Kling оновилася до версії 1. 5. Була анонсована ще одна китайська відеомодель – Seaweed від Bytedance.

Жовтень: атмосфера Хелловіну і великі обіцянки

MiniMax. Презентувала скажімо, Image-to-Video MiniMax закріпила за собою статус у коментарях. Meta показала MovieGen, модель, яка обіцяє робити майже все: перетворення тексту у відео, референси персонажів, редагування відео та створення звуку. MovieGen планують інтегрувати в Instagram наступного року. Runway випустила Act One, додаток для створення AI-аватарів, які розмовляють.

Листопад: тренування, тренування і ще раз тренування

Можливість надання великої кількості референсних матеріалів для навчання моделей покращує якість результатів.

Грудень: фінал 2024 року

OpenAI випустила Sora. Після 10 місяців очікування – виявилася дещо розчаровуючою. OpenAI випустила турбо-версію Sora, а не повноцінну. Sora схильна до галюцинацій, а для отримання корисного результату потрібен тарифний план за 200 доларів США. Sora потребує оновлень, і, можливо, Sora 2 буде значно кращою.

Була випущена нова відеомодель з відкритим кодом під назвою Hunan – дуже перспективна. Більше того, runway оновила Act One, що дозволяє додавати відео у існуючі AI-відео.

Google випустила VEO-2. Очевидно, google VEO-2 буде дивіться, широко доступна на початку наступного року. Очевидно,

Перелік подій 2024 року – не вичерпний. Але він демонструє, ну, як швидко розвивалася сфера AI.

Vibe Coding: Чи замінить ШІ традиційне програмування? Розмова з засновником Replit

Чи зможе ваш кіт намалювати шедевр? SeaDream 4.0 і світ ШІ-мистецтва.

Швидкий, Стильний та Просторово-розуміючий AI: Огляд Нової Хвилі Відеогенерації

2024: AI-революція – рік проривів та гучних прем’єр

Vibe Coding: Чи замінить ШІ традиційне програмування? Розмова з засновником Replit

Чи зможе ваш кіт намалювати шедевр? SeaDream 4.0 і світ ШІ-мистецтва.

Швидкий, Стильний та Просторово-розуміючий AI: Огляд Нової Хвилі Відеогенерації

Vibe Coding: Чи замінить ШІ традиційне програмування? Розмова з засновником Replit

Чи зможе ваш кіт намалювати шедевр? SeaDream 4.0 і світ ШІ-мистецтва.

Швидкий, Стильний та Просторово-розуміючий AI: Огляд Нової Хвилі Відеогенерації

Перестаньте платити: Як ШІ допоможе вам створювати власні інструменти та економити гроші

Від нуля до майстерності: Подорож у світ автоматизації з N8N

V3: Світ, де технології оживляють мрії

Збудуйте свій AI-світ: Повний посібник з локального розгортання.

Швидкий, Стильний та Просторово-розуміючий AI: Огляд Нової Хвилі Відеогенерації

Популярні

Клод 4: ШІ, який мислить, відчуває та ставить під сумнів реальність

Від нуля до майстерності: Подорож у світ автоматизації з N8N

Game Over для RL? Розбираємо скандальне дослідження про AI та міркування

Підпишіться

2024: AI-революція – рік проривів та гучних прем’єр

2024: рік, який змінив обличчя штучного інтелекту – подорож крізь неймовірні злети та гучні анонси

Пов’язані повідомлення

Підпишіться на оновлення