Штучний інтелект цього тижня: Anthropic випускає Claude 3.7, OpenAI відповідає, Amazon додає AI до Alexa та багато іншого
Цього тижня у світі штучного інтелекту вирувала справжня буря! Стільки всього сталося, що, здається, час стиснувся. Тож, щоб не витрачати ваш час, перейдемо одразу до найцікавішого.
Anthropic випускає Claude 3.7 і Claude Code
Anthropic не гаяв часу і представив оновлену версію Claude 3.5 – Claude 3.7 Sonet та Claude Code. Основний акцент у цьому оновленні було зроблено на покращенні можливостей кодування. І це видно з результатів тестування SWE Benchmark, де Claude 3.7 Sonet значно обійшов попередні моделі в задачах розробки програмного забезпечення.
Крім того, розробники покращили здатність моделі до “agentic Tool use”, тобто до виконання завдань від вашого імені. І це дуже актуально, враховуючи новини, які надійшли від Amazon, про що ми поговоримо трохи пізніше.
Якщо поглянути на інші бенчмарки – Claude 3.7 Sonet покращив показники в узагальненні на рівні випускників, але все ще поступається Grok 3 та OpenAI 03 Mini. У візуальному мисленні та розв’язанні математичних задач він також не є лідером, але значно перевершує Claude 3.5. Тож, очевидно, Anthropic зосередились на кодуванні та агентних можливостях.
Ще однією важливою фішкою стала функція “extended thinking”. Моделі, як Deep Seek R1 та OpenAI 01/03, демонструють процес мислення, показуючи хід думок перед наданням відповіді. Claude до цього часу цього не робив. Тепер, з “extended thinking”, Claude 3.7 Sonet може “думати” довше, що потенційно призводить до кращих відповідей.
Ці моделі вже доступні в Claude, навіть у безкоштовній версії. Ви можете перемикатися між звичайним режимом та режимом “extended thinking”, який змушує модель глибше замислюватися над завданням.
Разом з Claude 3.7 Sonet, Anthropic представили Claude Code – інструмент, який працює у вашому терміналі та має доступ до файлів у папці розробки. Він може пропонувати рішення, писати код та робити все, що ви очікуєте від AI-асистента з кодування.
Демонстрації можливостей Claude Code вражають: від створення повноцінних веб-сайтів для нерухомості до розробки 3D-ігор. Користувачі змогли згенерувати анімований додаток погоди, 3D-перегони, симуляцію міського кварталу з різними кутами огляду, місто з динамічною зміною тіней і навіть “самосвідому” гру про змійку. Список можна продовжувати. Все це було створено за допомогою Claude 3.7 Sonet, і це, безперечно, один з найвражаючих анонсів тижня.
OpenAI відповідає GPT-4.5
Після появи Grok 3 минулого тижня та Claude 3.7 на початку цього, було зрозуміло, що OpenAI не збирається стояти осторонь. У четвер компанія представила GPT-4.5 (кодова назва Orion). Цю модель тренували більше року, тому її база знань все ще обмежена 2023 роком.
Головне слово в презентації GPT-4.5 – “Vibes” (атмосфера). За словами OpenAI, ця модель має кращу атмосферу, ніж попередні версії. У порівнянні з іншими моделями OpenAI, GPT-4.5 краще справляється з простими запитаннями, демонструє меншу схильність до галюцинацій та генерує більш “людський” текст.
Важливо відзначити, що OpenAI не порівнювала GPT-4.5 з моделями від інших компаній, лише з власними розробками. Згідно з порівняльними графіками, представленими незалежними експертами, Grok 3 все ще перевершує GPT-4.5 в математичних задачах. Однак, в наукових задачах GPT-4.5 обійшов майже всі інші моделі, крім Grok.
Наразі GPT-4.5 доступний лише в рамках плану ChatGPT Pro (за 200 доларів на місяць), але незабаром він з’явиться і в планах Plus та Teams. Перші користувачі відзначають дещо повільну роботу моделі, але хвалять її здатність до креативного письма та генерації ідей. GPT-4.5 також здається більш “розслабленим” у спілкуванні, ніж GPT-4.
Останнє покоління GPT має можливості пошуку в інтернеті та глибинного дослідження, крім цього інтегровано в Dall-E та Canva. Хоча, ймовірно, користувачі, які мають доступ до GPT 03-mini та 01, все ще віддаватимуть перевагу саме цим моделям.
Голос Grok та безлімітний Microsoft Copilot
Grok 3 отримав голосовий режим, доступний для користувачів X Premium+. Голосовий режим Grok пропонує кілька цікавих стилів, таких як “розповідач історій”, “романтик”, “медитація”, “конспіролог”, “не психотерапевт”, “не лікар”, “розкутий”, “сексуальний”, “мотиватор” та “аргументатор”. Деякі з цих режимів є досить “розкутими”, і їх варто використовувати з обережністю.
Microsoft Co-pilot оголосив про безкоштовний безлімітний доступ до функцій “думати глибше” та голосового режиму. Microsoft також представила нову лінійку мовних моделей – Phi-5, включаючи Phi-4 для мультимодальних завдань та Phi-4 Mini. Ці моделі призначені для роботи на пристроях, що робить їх ідеальними для мобільних додатків та іншого споживчого обладнання. Для власників Apple з’явилася версія Microsoft Co-pilot для Mac.
Apple Intelligence та ШІ для Vision Pro
Apple не пасе задніх і планує інтегрувати Apple Intelligence в Apple Vision Pro. Користувачі отримають доступ до інструментів письма, Image Playground та Genmojis, а також просторової галереї.
Революційний підхід до створення коду
Компанія Inception Labs представила велику мовну модель, що базується на дифузійній технології. Дифузійні моделі зазвичай використовуються для генерації зображень, але Inception Labs вирішили застосувати їх для створення коду. Результати вражають – модель Mercury Coder генерує код з неймовірною швидкістю, в рази швидше за найшвидші моделі. Наразі Mercury Coder орієнтований на кодування, але, можливо, згодом його адаптують і для інших творчих завдань.
Нова ера у створенні зображень та відео
У світі AI-арту також відбулося чимало цікавого. Idiogram представив нову модель – Idiogram 2A, яка пропонує швидшу та дешевшу генерацію зображень з текстом. У свою чергу, Magnific додав функцію structure reference, подібну до control nets в Stable Diffusion, яка дозволяє використовувати референсні зображення для керування стилем.
Pika Labs випустила Pika 2.0 з можливістю генерувати 10-секундні відео у роздільній здатності 1080p та використовувати ключові кадри для створення плавних переходів. Результати вражають, особливо якщо врахувати, що мова йде про перехід між абсолютно різними об’єктами.
На арену виходить новий гравець – відкрита платформа для створення відео Onean Ai, яка може похвалитися високою якістю та реалістичністю. Kaa також оновила свою відеомодель до версії W 2.1, яка здатна створювати відео з реалістичним рухом та аналізувати складні запити.
Luma AI Dream Machine тепер генерує аудіо для ваших відео. Просто створіть відео, а потім попросіть Dream Machine додати музику чи звукові ефекти.
Нові можливості для аудіо: від транскрипції до емоційного синтезу
11 Labs представила Scribe, модель для транскрипції аудіо, яка обіцяє високу точність. Octave пропонує зворотний підхід – модель для синтезу мови, яка розуміє контекст і може генерувати мову з різними емоційними відтінками.
Інші новини: браузер від Perplexity та домашні роботи від Figure
Perplexity анонсувала розробку нового браузера під назвою Comet, створеного спеціально для агентного пошуку. А Figure Robotics планує випустити своїх роботів Helix для допомоги вдома вже до кінця 2025 року.
На завершення: розіграш Nvidia RTX 5090
На завершення, авто запрошує читачів взяти участь у розіграші топової відеокарти Nvidia RTX 5090. Умови прості: підписатися на канал автора, підписатися на розсилку новин Future Tools та зареєструватися на NVIDIA GTC (доступна безкоштовна віртуальна участь).