Епоха ШІ-агентів настала: огляд найцікавіших новин та інструментів тижня від Ліли Гарт
Привіт, друзі! Ліла Гарт з вами, і я тут, щоб занурити вас у дивовижний світ штучного інтелекту (ШІ) та поділитися найцікавішими новинами, інструментами та відкриттями цього тижня. Усе, про що ми так довго говорили – ШІ-агенти, які виконуватимуть нашу роботу за нас – здається, нарешті стає реальністю. Тож, без зайвих слів, пориньмо у події!
Manis AI: Перший крок до автономії?
Безсумнівно, однією з найгучніших новин останніх тижнів став запуск Manis AI. Цей інструмент продемонстрував вражаючі можливості, даючи нам відчути, що таке справжній ШІ-агент. З відеопрезентації ми дізналися, як Manis може автономно аналізувати резюме, досліджувати нерухомість та навіть проводити аналіз акцій.
Особливо вразила демонстрація дослідження нерухомості. Manis, отримавши завдання знайти нерухомість у безпечному районі Нью-Йорка з низьким рівнем злочинності, самостійно відкрив віртуальний браузер і почав дослідження, аналізуючи дані та звітуючи про результати.
Пам’ятаєте проект Baby AGI, який намагався створити напівавтономного агента, що виконував завдання зі списку? Він часто “застрягав у петлях” і був досить складним у використанні. Manis робить щось подібне, але значно ефективніше та простіше. Ми бачили, як під час дослідження акцій він створював список завдань і виконував їх одне за одним у віртуальному браузері.
Спільнота також створила кілька захоплюючих демонстрацій Manis. Мій друг B попросив знайти найкращі місця для зйомки дронами поблизу центру Остіна, враховуючи правила та обмеження. Manis створив список завдань, провів дослідження, перевірив місця на Google Maps 3D і надав три чудові рекомендації, враховуючи навіть розмір його дрона DJI Mavic Mini!
Звісно, не всі приклади використання Manis, які я бачила в мережі, здаються правдивими. Деякі стверджують, що створили з його допомогою складні речі, але я не впевнена, що це так. Проте, деякі приклади вражають. Ось, наприклад, створення 3js гри з єдиного запиту або SEO-аудит сайту.
Дехто каже: “Manis – це просто Claude Sonic, підключений до різних інструментів та браузера”. І це правда. Але Manis першим об’єднав усі ці речі в одному інструменті, який виявився дійсно корисним і цінним для людей.
Гаррі Тан влучно зауважив: “Стає зрозуміло, що для створення дійсно значущих продуктів зараз не потрібні прориви в моделях”. І це правда. Ми отримали величезний стрибок у можливостях не завдяки новій мовній моделі, а завдяки команді, яка об’єднала різні інструменти в один.
Я отримала ранній доступ до Manis і провела кілька тестів. Перший закінчився невдачею. Я попросила Manis дослідити самого себе – його сильні та слабкі сторони, порівняти з іншими агентами. Він створив список завдань, почав читати статті про себе, а потім завис, досліджуючи свої ж обмеження. Думаю, він просто не витримав навантаження.
Інші тести пройшли краще. Я попросила Manis проаналізувати мою поштову скриньку Gmail і виділити важливі листи. Цікаво, що для входу в мій обліковий запис Google мені не потрібно було ділитися своїм логіном і паролем. Manis просто передав мені контроль над віртуальним комп’ютером, я ввела дані, а потім повернула контроль Manis, який продовжив аналіз.
У третьому тесті я попросила створити маркетингову цільову сторінку для сайту з продажу взуття, включаючи соціальний доказ, дослідження про останні моделі взуття, фотографії та відгуки клієнтів. Manis створив список завдань, провів дослідження, знайшов статті про найкраще взуття і створив веб-сайт з HTML та CSS кодом.
Manis поки що не є загальнодоступним. Але сподіваюся, що незабаром вони розширять доступ.
OpenAI та Microsoft: Рухаються в бік ШІ-агентів
OpenAI також поглиблюється у світ ШІ-агентів. Вони випустили нові інструменти для розробників, зокрема Responses API, який дозволяє використовувати веб-пошук, пошук файлів і обчислювальні можливості OpenAI. Це, швидше за все, призведе до появи більшої кількості інструментів на основі ШІ-агентів.
Microsoft також підтримала ініціативу, зробивши Responses API доступним в Azure AI Foundry.
OpenAI також натякнули на випуск нової моделі, яка добре пише. Сем Альтман поділився коротким оповіданням, написаним цією моделлю, але, чесно кажучи, це не мій стиль. Занадто багато метафор. Проте, багатьом сподобалось.
Convergence AI: Deep Work
Convergence AI представили Deep Work, свого найпотужнішого агента. Він дуже схожий на Deep Research від OpenAI та Google, але щоб його використовувати, потрібно перейти на платний план за 20 доларів на місяць, навіть без можливості спробувати безкоштовну демоверсію.
Harvey: ШІ-агент для фінансового аналізу
Ще один ШІ-агент, який з’явився цього тижня – Harvey. Для його використання потрібно запросити демонстрацію, але з відео я побачила, як він аналізує фінансові звіти та пропонує стратегії. Він також має шаблони для перекладу, редагування та аналізу транскриптів.
Google: Феєрверк інновацій!
Google цього тижня представила багато цікавих речей, почнемо з Gemma 3 – їхньої відкритої моделі. Вона майже така ж хороша, як DeepSeek R1, але значно менша за розміром. Gemma 3 також є мультимодальною, тобто вона може розуміти зображення, текст і відео. Вони також збільшили контекстне вікно Gemma до 128 000 токенів.
Найбільше мене вражає Google AI Studio, де вони безкоштовно надають доступ до всіх своїх моделей. Ви можете легко вибрати Gemma 3 і почати використовувати її як звичайний чат-бот. Ось тут ai.google.dev ви можете спробувати.
Але Google не зупинився на цьому. Вони також оголосили про вбудовану генерацію зображень Gemini 2.0 Flash, яка тепер доступна всім розробникам, зокрема й у Google AI Studio. Це означає, що ви можете попросити модель створити зображення з тексту. Наприклад, я попросила створити зображення вовка, який виє на місяць, і вона зробила це за 4 секунди! Вражаюче!
Оскільки вона розуміє зображення, я можу давати їй природні запити, щоб змінити зображення. Наприклад, я попросила додати сонцезахисні окуляри вовку, і вона зробила це. Я навіть завантажила свою фотографію і попросила додати мені капелюх федору, і вона швидко створила зображення. Це шалено швидко і до того ж безкоштовно.
Тут є й інші цікаві приклади використання. Хтось використав лист спрайтів для створення реалістичної кімнати підземелля для своєї гри. Gemini може створити анімацію, генеруючи кілька кадрів з узгодженим персонажем. Це чудово, адже одна з найбільших проблем генерації зображень за допомогою ШІ полягає в тому, що важко створити зображення, які генерують узгодженого персонажа щоразу.
Звісно, не у всіх все виходить добре. Але те, що ця здатність розуміти зображення та повертати їх назад, всередині великої мовної моделі, дозволяє це робити, і вона працює дуже добре.
Я згадувала, що багато інструментів для глибокого дослідження доступні безкоштовно, Google також дає нам свою версію. У Gemini ви можете вибрати модель Deep Research і досліджувати теми, які вас цікавлять.
Ви можете дати йому запит, наприклад, дослідити найкращі споживчі дрони, дати вам плюси та мінуси кожного з них і сказати, який би ви рекомендували. Він буде працювати над цим протягом декількох хвилин і дасть вам ґрунтовну доповідь, навіть невеличку діаграму, що розбиває їх усі. Ви також можете експортувати resultados у Google Docs.
Google також інтегрує ШІ в Google Calendar. Вони тестують нову бічну панель Gemini на основі ШІ в Google Calendar, яка дозволяє користувачам швидко та в розмовній формі перевіряти свій графік. А ще Gemini зможе читати ваші електронні листи і додавати інформацію з них у ваш календар.
Google також представив Gemini Robotics, модель на основі Gemini 2.0, призначену для робототехніки. Перша модель Gemini Robotics Advanced Vision Language Activation Model допомагає роботам краще бачити те, з чим вони працюють і взаємодіяти з цим.
Perplexity: Додаток для Windows
Perplexity представили додаток для Windows. Він виглядає так само, як і versión браузера, але ви можете використовувати гарячі клавіші для швидкого відкриття Perplexity і задавати запитання.
Grok: Відповідає на запитання в Twitter!
Grok випустив нову функцію в X, де ви можете тегнути @grok і поставити йому запитання, і він відповість. Ви також можете зробити це з Perplexity, якщо введете “ask perplexity” і дасте запит після цього.
Інші моделі та інструменти
Компанія Hunan випустила нову модель Hunan Turbo S, перший у світі гібридний Transformer-Mamba на основі експертної суміші, яка, за їхніми словами, перевершує GPT-4o, DeepSeek V3 та інші моделі з відкритим кодом у математичних міркуваннях та вирівнюванні.
REA AI Labs відкрила вихідний код моделі REA Flash 3, яку я ніколи раніше не чула.
Sakana AI дозволив ШІ написати наукову публікацію, яка пройшла процес рецензування і потрапила на конференцію ICLR. Це нібито перша повністю згенерована ШІ стаття, яка пройшла такий самий процес рецензування, як і людські дослідники.
ШІ в кодуванні
У світі ШІ-кодування зараз настав момент, і я одержима цим. Ось чому я останнім часом випускаю менше відео на цьому каналі, тому що я одержима розробкою невеличких інструментів і переробкою веб-сайту Future Tools, кодуючи його самостійно. Для цього я в основному використовую Cursor і Windsurf.
Cursor випустив нові функції, додав теми та контрольні точки, можливість автоматичного виправлення помилок, нову навігаційну панель і можливість попереднього перегляду коду безпосередньо в панелі агента.
Компанія Bolt, яка також полегшує генерацію коду за допомогою ШІ, випустила figma-додаток, який дозволяє вам підключати figma безпосередньо до Bolt, щоб ви могли створити дизайн у figma, а потім сказати Bolt зробити цей дизайн за вас.
А ще Даріо Амодей, генеральний директор Anthropic, сказав, що через 3-6 місяців ШІ писатиме 90% коду.
ШІ-мистецтво: Відео, Аватари та багато іншого!
Компанія Moon Valley стверджує, що створила першу у світі чисту ШІ-відеомодель світового класу. Ця модель Marry побудована для режисерів, навчена виключно на ліцензійних даних І це ось що вона може.
Компанія Сaptions запустила Mirage, який призначений для генерування енергійних оголошень з людьми, яких не існує, з анімованою мовою тіла та мікровиразами. Чесно кажучи, люди виглядають дуже реалістично, але з аудіодоріжкою ще є над чим працювати.
Snap представив ШІ-відеолінзи на основі власної генеративної моделі. Якщо ви хочете їх використати, ви повинні бути на Snapchat Platinum, який коштує 16 доларів на місяць.
Якщо ви користувач Windows і використовуєте блокнот, то тепер зможете підсумовувати речі прямо з блокнота.
Xbox показав свій новий співпілот для ігор, який розроблений, щоб допомогти геймерам долати перешкоди під час гри за допомогою ШІ.
Rivian анонсував нові функції самостійного водіння. Тепер ви можете відпустити кермо і дозволити йому їхати по шосе за вас, і він буде триматися на відстані від автомобілів попереду вас, і якщо ви ввімкнете сигнал, він автоматично змінюватиме смугу руху за вас, і це в основному робить водіння Rivian більш автономним.
У новинах про обладнання Meta починає тестувати власні ШІ-тренувальні чипи.
За чутками, Apple розробляє ШІ-навушники airpods. З того, що я розумію, ці нові airpods зможуть робити переклад в режимі реального часу.
І нарешті, наступного тижня відбудеться конференція Nvidia GTC в Сан-Хосе.
Висновок
Ось і все на сьогодні! Тиждень був насичений новинами та вражаючими інструментами. Світ ШІ розвивається з неймовірною швидкістю, і мені не терпиться ділитися з вами новими відкриттями.
Дякую, що були зі мною! Не забудьте підписатися на канал, щоб не пропустити нові відео, і до зустрічі в наступному випуску!