Claude Opus 4.5: Технологічний прорив, або як ШІ знову вразив уяву

    Штучний інтелект розвивається такими шаленими темпами, що часом важко встигати за цими змінами. Ще вчора ми захоплювалися новою моделлю, а сьогодні вже презентують наступну – ніби це щось звичне. Минулого тижня світ побачив Claude Opus 4.5 від Anthropic. Це не просто оновлення, це стрибок, що, за словами розробників, робить модель найкращою для кодингу, роботи з агентами та комп’ютерних задач загалом. Звучить гучно? Це лише початок. Тож, запасайтеся кавою – ми занурюємося у світ, де цифри випереджають уяву, а можливості ШІ розширюють горизонти.

    Битва титанів: хто найкращий у кодуванні?

    Уявіть чемпіонат світу з програмування, де замість людей – найпотужніші моделі штучного інтелекту. На сцену виходить Claude Opus 4.5, а його суперники – Gemini 3 Pro, Codeex Max та GPT 5.1. Арена – це комплексні тести, де кожен рядок коду – це бал.

    Anthropic виклали всі козирі на стіл. Перший та, мабуть, найважливіший для розробників тест – Swebench verified. Opus 4.5 видав приголомшливі 80.9%. Його попередник, Sonnet 4.5, також показав гідний результат (77.2%), але Opus – це інша ліга. Навіть Gemini 3 Pro, що вийшов нещодавно, зупинився на 76.2%, а GPT 5.1 показав 76.3%. Хоча різниця на перший погляд незначна, ці відсотки – це перемога над труднощами, крок до ідеального рішення.

    Цікавий факт: Розробники Anthropic одразу включили до порівняння конкурентів, які вийшли незадовго до їхнього анонсу. Це сміливий крок.

    Але це ще не все. У Gentic terminal bench 2.0 Opus 4.5 знову лідирує (59.3%), за ним йде Gemini 3 Pro (54.2%). Далі – T2 bench, що тестує вміння моделі використовувати інструменти, де Opus 4.5 майже бездоганний (98.2%), а Gemini 3 Pro демонструє високі результати (88.9%).

    У бенчмарку OSWorld, що імітує комп’ютерне використання, Opus 4.5 набрав 66.3%. OpenAI та Google, можливо, вирішили не використовувати цей тест або не публікувати результати.

    Не ідеальний, але майже! Де Opus 4.5 поступився?

    Немає нічого досконалого. Навіть Opus 4.5 не став абсолютним чемпіоном у всіх категоріях. Anthropic чесно про це говорять.

    Де ж Opus 4.5 не досяг успіху?

    • GPQA Diamond (тестування рівня аспірантури): Тут Gemini 3 Pro виявився сильнішим – 91.9% проти 87% у Opus 4.5.
    • MMU (візуальне сприйняття): Тут лідирував GPT 5.1.
    • MMLU (багатомовне Q&A): Знову Gemini 3 Pro був кращим – 91.9% проти 90.8% у Opus 4.5.

    Також варто відзначити тести Vending Bench та Arc AGI. В першому, що імітує управління віртуальним торговим автоматом, Opus 4.5 заробив $4,967, а Gemini 3 Pro – $5,478.16. В другому, Arc AGI1, Gemini 3 Deep Think досі лідирує (87.5%), тоді як Opus 4.5 (Thinking 64K) має 80%. Навіть середній показник людини вищий – 98%!

    Застереження: Не варто робити висновки щодо моделі лише на основі кількох програних пунктів. Штучний інтелект стрімко розвивається, і сьогоднішнє друге місце може завтра стати першим.

    Скільки коштує майбутнє?

    Opus 4.5 коштує $5.25 за мільйон токенів: $5 за вхідні та $25 за вихідні. Це дорожче, ніж Gemini 3 Pro, ціни на який варіюються від $2 до $12 (для запитів до 200 000 токенів) та $4.18 (для більших запитів). Тобто Opus 4.5 – на 50-100% дорожчий за найновішого конкурента.

    Але чи виправдовує це результати?

    Найкращий випускник будь-коли?

    Anthropic давали складні завдання своїм провідним інженерам і потім давали їх Opus 4.5. І він виконував їх краще, ніж будь-який кандидат, якого вони коли-небудь наймали! Opus 4.5 впорався з цим за 2 години.

    Це нагадує ситуацію, коли учень пише дипломну роботу краще, ніж професор.

    Warp: ваш найкращий друг в терміналі

    Warp робить перехід від IDE до CLI (інтерфейсу командного рядка) легким та комфортним. Warp перевершує конкурентів за результатами бенчмарків, як-от Terminal Bench, та займає лідируючі позиції у Swebench Verified.

    Особливості Warp:

    • Інтерфейс, що нагадує IDE: Все необхідне в одному місці: редагування файлів, перегляд відмінностей у коді, випуск готового коду.
    • Багатоагентність: Керуйте агентами паралельно легко та невимушено.
    • Підтримка сучасних LLM: Warp працює з усіма сучасними моделями.

    Warp – це реінкарнація терміналу. Якщо ви пишете код або працюєте з серверами, вам варто спробувати Warp. Отримайте безкоштовний доступ до Warp Pro на 7 днів та 2500 AI кредитів. [Посилання](немає конкретного посилання) в описі відео.

    Коли ШІ мислить за межами бенчмарків

    Іноді моделі настільки розумні, що бенчмарки не можуть їх повністю охопити.

    Наприклад, у T2 bench, де моделі мають діяти як агенти обслуговування авіакомпанії. Якщо пасажир хоче змінити квиток економ-класу, а це неможливо, модель повинна відмовити. Але Opus 4.5 запропонував спершу підвищити клас, а потім змінити квиток. Це породжує питання: це “помилка” моделі чи нестандартне мислення? Можливо, варто переглянути критерії бенчмарків?

    Новий рівень “просунутого використання інструментів”: відчуйте магію

    Anthropic впроваджує “просунуте використання інструментів” (Advanced Tool Use).

    Проблема: якщо ви використовуєте багато інструментів (GitHub, Slack, Sentry), їхні описи займають багато місця в контекстному вікні моделі.

    Рішення Anthropic – це інструмент пошуку інструментів. Модель не запам’ятовує всі інструменти, а “шукає” потрібний, звільняючи місце в контексті.

    Що це означає:

    1. Tool Search Tool: Дозволяє Claude знаходити серед тисяч інструментів, не витрачаючи контекст.
    2. Programmatic Tool Calling: Дозволяє моделі викликати інструменти в середовищі виконання коду.
    3. Tool Use Examples: Універсальний стандарт прикладу використання інструменту.

    Наприклад, для Github MCP серверу потрібно 35 інструментів. Їхні описи займають 26 000 токенів! Завдяки новому підходу їх потрібно лише 5% контекстного вікна. Це економія!

    Ефективність – нова розкіш

    Opus 4.5 значно ефективніший за Sonnet 4.5. Щоб досягти точності 76% на SweBench Verified, Sonnet 4.5 потребував 22 000 токенів. А Opus 4.5 для понад 80% точності використав лише 12 000 токенів!

    Важливо, що модель робить з цим часом, яка її “інтелектуальність на токен”. Це і демонструє Opus 4.5.

    Відгуки: коли цифри говорять

    З самого початку тестування користувачі ділилися враженнями.

    • Dan Shipper (CEO of every): “Opus 4.5 – найкраща модель для кодингу, з якою я працював. Ми вже ніколи не повернемося назад.”
    • Ethan Mollick: “Я мав ранній доступ до Opus 4.5, і це вражаюча модель. Вона досягла успіху у практичних завданнях, таких як створення презентацій в PowerPoint з Excel, а також блискуче впоралася з тестом Lem poetry.”

    Підсумки: куди ми рухаємося?

    Claude Opus 4.5 – це не просто оновлення, це демонстрація розвитку ШІ. Вона перевершує очікування в кодингу, демонструє розуміння логіки та знаходить нестандартні рішення.

    Anthropic також переосмислили взаємодію моделей з інструментами, роблячи їх ефективнішими. Можливості, які відкриває Opus 4.5, здаються безцінними, хоча ціна може бути вищою.

    Що далі?

    1. Тестуйте самі: Спробуйте Opus 4.5, якщо ви розробник.
    2. Слідкуйте за оновленнями: Моделі та можливості змінюються щодня.
    3. Замисліться: Як ці технології змінять роботу та життя. Яка ваша роль у світі, де ШІ стає все інтелектуальнішим?

    Підсумовуючи, ми спостерігаємо прорив. Claude Opus 4.5 підтверджує, що майбутнє вже настало, і воно неймовірно потужне. Ми маємо брати участь у формуванні цього майбутнього, використовуючи ці інструменти.

    А як ви думаєте, чи є межа для розвитку штучного інтелекту? Поділіться думками в коментарях!

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x