Штучний інтелект в Об’єктиві: Огляд Новин та Перспектив
Привіт, друзі. З вами знову Ліла Гарт, і сьогодні ми зануримося у захоплюючий світ новин штучного інтелекту, що розкривається на каналі Matt VidPro AI. Сергій, автор каналу, поділився з нами низкою дивовижних відкриттів, від відкритих проєктів до значних оновлень у сфері відео та агентів ШІ. Тож, давайте разом спробуємо поміркувати про те, що ж нам готує майбутнє.
Перш за все, давайте згадаємо про чудову, інтерактивну демонстрацію, що дозволяє зазирнути в «розум» великої мовної моделі (LLM). Це чудовий візуальний приклад роботи нейронних мереж. Звісно, демонстрація простіша, ніж ваш улюблений ChatGPT, але вона надає наочне уявлення про принципи функціонування LLM. Ви можете переглянути 3D-зображення “розуму” моделі, обрати різні варіанти відповідей та прослідкувати за розгалуженням можливих рішень. Початкове слово “інтелект” розкривається у низку гілок, демонструючи весь діапазон можливих відповідей та їх взаємозв’язок. Ця демонстрація показує, як LLM досліджує різні сценарії.
А тепер до гарячих новин! Не можна оминути оновлення ChatGPT: агенти ChatGPT. Цей агент, здатний використовувати комп’ютер, писати код, створювати файлові системи, фактично наближається до рівня людських можливостей у багатьох задачах, особливо в “білих комірцях”. На думку експертів, новий агент демонструє вражаючі результати у порівнянні навіть з потужною моделлю Groq. Варто відзначити, що доступ до агентів передбачений для власників підписки ChatGPT Pro, а з понеділка доступ почнуть отримувати також користувачі Plus. На жаль, безкоштовні користувачі поки що залишаються осторонь. Для тих, хто бажає дізнатися більше, Сергій радить переглянути його попереднє відео, де детально обговорюється ця новинка.
Наступна важлива новина – це відкрита модель Kimmy K2. Цей відкритий LLM, який, за словами Сергія, “зміг перемогти DeepSeek”, демонструє вражаючі результати, особливо у питаннях кодування та агентних задачах. Модель складається з 1 трильйона параметрів, має 32B активну модель та показує високі результати у багатьох тестах. Kimmy K2 позиціонується як зручний інструмент для розробників, з API та широким набором можливостей. За цією моделлю стоїть компанія Moonshot AI, і вона вже доступна на Hugging Face та GitHub. Модель надає можливості для глибинного дослідження, редагування та тонкої настройки, що дозволить створювати рішення, спрямовані на конкретні агенти.
Сергій особисто протестував Kimmy K2, поставивши перед нею складне завдання: “Згенерувати рейтинг 50 найкращих у світі снеків, впорядкованих за загальною кількістю з’їдених одиниць на рік”. Результати виявилися вражаючими! Модель видала детальну доповідь, що включала навіть цитування джерел. Kimmy K2 безумовно стає серйозним гравцем серед відкритих моделей.
Далі у програмі – важлива інформація від спонсорів, Amazon Web Services (AWS). AWS продовжує активно розвивати екосистему штучного інтелекту, особливо в області агентних ШІ-рішень. Серед основних анонсів – Amazon Bedrock Agent Core, що представляє собою готову інфраструктуру для агентного ШІ. Також, з’явилася можливість тонкої настройки нових моделей Amazon Nova прямо в SageMaker. Для тих, хто прагне продемонструвати свої навички, AWS запускає AWS AI League – змагання з тонкої настройки легких моделей, з призовим фондом до 2 мільйонів доларів. AWS також збільшує інвестиції в Generative AI innovation center, щоб підтримувати розробників та стартапи у втіленні їх ідей.
Для автоматизації процесів анонсовано Nova Act SDK, яке показує 90% успішності у задачах з використанням браузера. З AWS будувати власного агентного ШІ стає простіше.
Тепер повернімося до Kimmy K2. В той час, як йшов процес аналізу, варто відмітити ще декілька оновлень продуктів.
Pusa 1.0, яка перевершує WAN від зображення до відео, з векторною адаптацією кроків часу. Pusa – це як більш ефективна версія WAN. Модель базується на відкритому коді моделі WAN, вирішує деякі її недоліки та оптимізує генерацію відео. Технологія стала доступною для широкого кола користувачів, значно покращивши продуктивність відтворення відео, а саме її вартість. Pusa також має вдосконалену стару модель, яка тепер вміє працювати з текстом до відео, з анімацією початкових та кінцевих кадрів, дозволяє робити розширення відео та багато іншого. Для демонстрації роботи нової моделі, Сергій запропонував нам такий приклад: “Китиха вистрибує з моря. Тропічні острови із заходом сонця”. На жаль, тестова версія моделі на момент запису відео не мала достатньої функціональності.
Далі в огляді – Runway ML Act Two. Якщо ви пам’ятаєте Act One, ця модель дозволяла переносити міміку обличчя з реального відео на анімованого персонажа. Act Two пропонує значне оновлення: тепер відстежується не тільки обличчя, а й все тіло, рухи рук, ніг, торсу. Це відкриває широке поле для творчості та історій.
Сергій наводить приклад демонстрації Act Two з використанням відео з Джеком Ніколсоном. Технологія дозволила перенести рухи актора на віртуального персонажа. Хоча в деяких моментах результат не ідеальний, загалом Act Two вражає. У порівнянні з Act One, відео вже виглядають більш реалістично, імітуючи справжні сцени з фільмів.
Наступне відео презентує Runway community, де в процесі створення тіла персонажа та його рухів у відео відбувається його максимальна реалізація. Це демонструє значний крок уперед, особливо для розповіді історій, адже дозволяє використовувати рухи всього тіла.
Крім того, було продемонстровано, як технологія повністю управляє тілом людини в кадрі.
Повертаючись до генерації результатів роботи Kimmy K2, варто підкреслити, що аналітичний звіт моделі про 50 найпопулярніших снеків світу був деталізованим та включив усі необхідні дані.
На завершення відео, Сергій оглянув декілька невеликих оновлень від:
- OpenArt – з їхнім новим продуктом OpenArt Story, який перетворює текст на хвилину відео з анімацією, музикою та розповіддю. OpenArt Story нагадує Invideo AI, але з меншою тривалістю ролика.
- LTX Video – з новою моделлю, що дозволяє генерувати 60-ти секундні відео високої якості, враховуючи підтримку глибини та Lora.
- OpenAI – з можливістю запису аудіо в додатку ChatGPT Plus для Mac OS та передбачуваним випуском нової моделі для генерації зображень.
- Suno AI – з оновленням до V4.5 Plus, яка дозволяє змінювати вокал, змінювати інструментальні партії та створювати пісні на основі аудіо файлів.
- Angry Tom – з Higsfield UGC builder, що представляє різноманітні цифрові аватари, які по-різному реагують на введені команди.
Насамкінець – огляд результату від Open Art з “лимонним персонажем”, відправленим на Марс. Результат вийшов доволі атмосферним, хоча і не таким просунутим, як Invideo.
На завершення, Сергій підкреслив свою зацікавленість у новому агенті ChatGPT та пообіцяв показати результати свого тестування. Він порадив підписатися на його Discord-сервер, аби бути в курсі всіх новин.
Ще раз дякую всім, хто приділив увагу цьому великому та насиченому огляду! Відкритий ШІ продовжує розвиватися шаленими темпами, щотижня з’являються нові інструменти та можливості. Сподіваюся, вам було так само цікаво, як і мені, відчувати пульс майбутнього. До нових зустрічей!