Claude став розумнішим (і, можливо, більш винахідливим)
Минулого тижня мій друг-програміст сказав щось таке, що змусило мене подумати: “Невже ШІ може ставати одночасно розумнішим і корисnішим?”
Виявляється, він був недалекий від істини.
Компанія Anthropic презентувала вражаючу новину – нову версію Claude, свого потужного ШІ, під назвою Claude Opus 4.1. Вони називають це оновленням, але це більше схоже на справжній стрибок можливостей!
Кожного разу, коли виходить нова модель, це все одно, що отримати новий інструмент – розумніший, точніший, готовий розв’язувати складніші завдання.
Цього разу вони зосередилися на вдосконаленні Claude в розумінні складних інструкцій, логічному мисленні та розв’язанні реальних завдань. Уявіть: можна попросити його написати код, проаналізувати дані або навіть допомогти приготувати страву – використовуючи логіку та reasoning, як мудра бабуся, яка може передбачити ваші потреби ще до того, як ви їх озвучите.
Розглянемо цифри! Адже цифри розповідають свою історію.
SweetBench підтвердив:
Цей бенчмарк по суті перевіряє, наскільки добре ШІ розуміє інструкції та генерує зв’язні відповіді. Уявіть, що ви просите друга пояснити напрямок – вам потрібні чіткі, точні та корисні настанови.
- Claude Opus 4.0 набрав 72,5% на цьому тесті.
- Opus 4.1? Вибух – 74,5%! Це вагоме підвищення на 2%. Можливо, це здається небагато, але в світі ШІ кожен відсоток – це величезний крок уперед.
Але це ще не все!
Вони також суттєво вдосконалили:
- Аналіз даних: Уявіть Claude, який допомагає досліджувати величезні масиви інформації, виявляти закономірності та надавати глибокі insights, немов надефективний дослідницький асистент.
- Агентний пошук: Тут ШІ вчиться незалежно шукати інформацію, ставити уточнювальні запитання та самостійно знаходити рішення. Це все одно, що дати йому капелюх детектива та дозволити розкривати таємниці.
Є й інші вражаючі бенчмарки:
- Terminal Bench: Вимірює взаємодію ШІ з комп’ютерними системами.
- GPQA Diamond: Перевіряє здатність до логічного мислення та розв’язання складних проблем.
- Towbench: Фокусується на використанні ШІ інструментів у конкретних рамках.
Як Claude виглядає поряд з гігантами на кшталт OpenAI GPT-4 та Gemini 2.5 Pro? Картина неоднозначна.
Claude демонструє вражаючі результати в деяких сферах, зокрема в програмуванні та агентних завданнях, але є й галузі, де є простір для вдосконалення.
Але от що важливо про бенчмарки – вони показують лише частину картини.
Принципово, наскільки Claude працює в реальних сценаріях.
Чи відчуваєте ви магію розумнішого, винахідливішого ШІ? Пам’ятайте, штучний інтелект постійно еволюціонує, постійно навчається. Ми перебуваємо на межі чогось дивовижного. Тому, якщо матимете змогу випробувати Claude, обов’язково поділіться враженнями.
Залишаймося допитливими!
Чекаємо на нові пригоди зі ШІ!