Новий вожак ШІ-кодування? Знайомство з Claude Sonnet 4.5, що змушує перегонові машини тікати!

    Привіт, друзі! Я Ліла Харт, і сьогодні ми вирушимо у світ, де штучний інтелект пише код швидше, ніж ми вимовляємо “синтез”. Знаєте ці моменти, коли технології розвиваються зі швидкістю світла? Схоже, хтось ще сильніше натиснув на педаль газу. Минулого тижня спільнота AI була вражена новиною: Anthropic випустила Claude Sonnet 4.5, і, відверто кажучи, це просто вибух!

    У тестах Sonnet 4.5 виглядає як справжній монстр. Він не просто випереджає попередні моделі, включно з Opus 4.1 від Anthropic, а й, здається, залишає позаду навіть GPT-4 Turbo від OpenAI, яка ще недавно вважалася недосяжною. Це як ваш улюблений автомобіль раптом поступається місцем новій моделі, яка з’являється нізвідки та одразу стає чемпіоном. Але чи все так райдужно насправді? Чи зможе Sonnet 4.5 виправдати всі ці гучні заяви у реальних завданнях?

    Я, як завжди, вирушаю на передову, щоб перевірити це на власному досвіді. Сьогодні ми влаштуємо справжнє “бойове хрещення” для Sonnet 4.5. Разом із вами, моїми допитливими читачами, ми спробуємо створити однакову, доволі складну функціональність, використовуючи як Claude Code з новим Sonnet 4.5, так і Codex з GPT-4 Turbo. Це буде справжня битва титанів!

    Я вже відчуваю адреналін. Чи зможе Sonnet 4.5 повернути тих, хто перейшов на бік OpenAI? Чи стане він новим золотим стандартом для розробників? Давайте розберемося разом, як завжди – без зайвих зусиль, але з пристрастю до технологій!


    Розчленований код: Чому Sonnet 4.5 – це не просто “ще один” ШІ?

    Знаєте, коли чуєш про випуск нової моделі ШІ, перша думка: “Ого, цікаво. Але чи буде це реально щось вагоме?”. Адже ми вже бачили чимало “революцій”, які потім виявлялися просто еволюцією. Але з Claude Sonnet 4.5 відчувається щось інакше. Anthropic не просто оновили цифри в бенчмарках – вони, здається, зробили стрибок.

    Якщо звернути увагу на офіційні дані, то Sonnet 4.5 виривається вперед у багатьох ключових категоріях. Особливо вражає прогрес у “світному використанні інструментів” (agentic tool use). Це коли ШІ не просто генерує код, а й вміє самостійно використовувати зовнішні інструменти, ніби він шеф-кухар, який може дістати потрібний ніж чи спецію з шафи. А порівняно з Opus 4.1, ми бачимо зростання майже на 20% у цьому напрямі. Це якби ваш помічник раптом навчився самостійно замовляти необхідні компоненти для проєкту!

    Але це ще не все. Anthropic також випустили оновлену версію Claude Code 2.0, яка тепер за замовчуванням працює на Sonnet 4.5. Це означає, що розробники, які вже використовували Claude Code, отримають потужніший інструмент “з коробки”. Для тих, хто шукає гнучкості, є можливість повернутися до старішої моделі Opus 4.1.

    І ще одна приємна новина: Anthropic випустили розширення для VS Code. Це означає, що ви зможете користуватися всіма перевагами Claude Code прямо у вашому улюбленому редакторі коду. А SDK для розробки власних “агентських” рішень відтепер називається Claude Agents SDK. Звучить як справжній генератор можливостей для створення справді розумних додатків!

    Anthropic активно просуває цей новий продукт, і це зрозуміло. Вони вкладають багато зусиль, аби Sonnet 4.5 став новим лідером. Саме тому я вирішила провести це порівняння. Час побачити, як ця “звірина” модель покаже себе в реальних умовах.


    Тестове поле бою: Stripe-інтеграція в реальному часі

    Отже, ми готові до головного випробування. Як я вже казала, суть тесту – максимально наблизити його до реальних умов роботи. Важливо було обрати завдання, яке не буде надто простим, щоб не було нудно, і не надто складним, щоб не чекати цілу вічність. І я думаю, що інтеграція Stripe для оплати токенів у вже існуючому складному додатку – це ідеальний баланс.

    Зліва на екрані – Code-x з GPT-4 Turbo. Праворуч – Claude Code з новим Claude Sonnet 4.5. Я планую запустити цих двох “бійців” одночасно, за одним і тим же документом з вимогами. Я навіть не робила “сухого прогону” – хочу, щоб ви побачили все як є, від А до Я.

    Зараз я дам їм одне й те саме завдання: інтегрувати Stripe у мій додаток, який вже має інтерфейс, схожий на ChatGPT, і працює з RAG-моделлю (Retrieval Augmented Generation – хто не в курсі, це коли ШІ не тільки генерує текст, а й вміє шукати інформацію у великій базі знань) [RAG]. Я вже маю готову версію з інтеграцією Stripe на окремій гілці Git, щоб мати наочний приклад того, куди ми рухаємося.

    Що я хочу від них?

    1. Інтеграція Stripe API: Вони мають налаштувати процес оплати.
    2. Покупка токенів: Користувач зможе придбати віртуальні токени, які використовуються для запитів до агента.
    3. Оновлення балансу: Після покупки баланс токенів користувача має оновитися.
    4. Віднімання токенів: Кожне нове повідомлення має “з’їдати” один токен.

    Я обрала саме цей сценарій, бо він не тривіальний, але й не вимагає годин роботи. А головне – я бачила, як попередня модель Sonnet 4.0 іноді “спотикалася” на дрібницях, але загалом справлялася. Це дає мені чудову можливість порівняти, наскільки Sonnet 4.5 покращив ситуацію порівняно з GPT-4 Turbo.

    Я вже запустила інструкції для обох агентів. Вони працюють з різними копіями репозиторію, щоб не заважати один одному. Завдання: “зробити так, щоб працювало”. Моя частина – спостерігати, аналізувати та ділитися враженнями.

    Готові? Поїхали!


    Між виконанням: Коли швидкість має значення (і коли ні)

    Час: 10 хвилин після старту

    Ну що ж, друзі, тримаю вас у курсі. Життя цих ШІ-розробників, як виявилося, не завжди схоже на кадри з футуристичного фільму.

    Спостерігаючи за Code-x (GPT-4 Turbo) ліворуч, бачу, що він активно працює з файлами баз даних. Виглядає так, ніби він намагається перелічити всі зернятка в мішку. І, відверто кажучи, не все виходить гладко – деякі команди видають помилки. Загалом, він працює доволі повільно, навіть для такого простого завдання, як читання файлів. Це вже не дуже оптимістично.

    Але подивіться на Claude Sonnet 4.5 праворуч! Це інша історія. Він літає! Швидкість, з якою він проходить етапи реалізації, вражає. Ніби він не пише код, а диктує його. І це тільки початок!

    Зазирнувши в список завдань (Archon, як називає його Claude), бачу, що Sonnet 4.5 вже майже закінчив фронтенд-частину, пов’язану з оплатою токенів. Зараз він працює над компонентами відображення. А Code-x тільки-но завершив зміни в схемі бази даних і переходить до бекенду.

    Різниця в швидкості просто величезна. Звісно, у кінцевому підсумку головне – якість коду. Але швидкість – теж важливий фактор, особливо коли ти чекаєш на готову функціональність. І тут Sonnet 4.5 показує себе на висоті.

    Я дам їм ще трохи часу, а потім ми побачимо, хто з них зможе створити по-справжньому робочий результат. Але вже зараз Sonnet 4.5 залишає далеко позаду конкурента.


    Тріумф швидкості: Sonnet 4.5 робить це за 15 хвилин!

    Час: 15 хвилин з моменту запуску

    Це сталося! Claude Code з Sonnet 4.5 щойно повідомив про завершення повної інтеграції Stripe! І знаєте що? Це зайняло всього 15 хвилин!

    Щоб ви розуміли, наскільки це вражає: я робила подібний тест з попередньою версією Opus 4.1, і тоді це зайняло 35 хвилин. Тобто Sonnet 4.5 не просто швидший, він учетверо швидший! Це якби принтер друкував вашу курсову годину, а новий – за 15 хвилин.

    Звісно, я одразу перевірила код. Не все було ідеально “з першого разу” – знайшла кілька дрібних помилок, наприклад, з URL-адресами між фронтендом і бекендом. Але це були дрібниці, які виправляються за хвилину. Результат був майже ідеальним!

    Я швидко налаштувала оточення, перезавантажила контейнери. І ось він – мій додаток, в якому працює Stripe, побудований за допомогою Sonnet 4.5.

    Що я побачила:

    • Інтерфейс – досить пристойний. Можливо, правий верхній куток можна було б зробити краще, але загалом – виглядає добре.
    • Процес покупки: Замість того, щоб купувати токени прямо в чаті, мене перекинуло на сторінку Stripe Checkout. Я не знаю, що краще, але це також цілком робочий варіант.
    • Оплата: Вводимо фейкові дані (бо це тестовий режим), оплачуємо. Гроші зараховано! Рахунок – 250 токенів.
    • Тестування: Повертаюся до чату, надсилаю запит. Отримала відповідь!
    • Проблема: Здається, баланс токенів не оновився автоматично. Після перезавантаження сторінки з’явилося 249. Це означає, що ще одна ітерація потрібна, щоб все було досконало.

    Але кажу вам, це було лише дві ітерації, і ми маємо повністю інтегрований Stripe! Це просто неймовірно!

    А тим часом, Code-x все ще працює. Він безперервно щось робить вже понад півгодини, поки я тут виправляла дрібниці та записувала враження. Чесно кажучи, я вже починаю розчаровуватися в його продуктивності.


    Коли чекаєш годину, а отримуєш… ну, щось

    Час: 1 година 20 хвилин з моменту запуску

    Друзі, приготуйтеся, бо цю частину буде цікаво читати. Code-x нарешті завершив свою роботу. Це зайняло 1 годину 20 хвилин. Порівняйте з 15 хвилинами Sonnet 4.5. Різниця – космічна.

    Під час його роботи я помітила дивну поведінку: він редагував файл, а потім одразу ж перечитував його, щоб перевірити зміни. Можливо, це специфіка роботи Code-x на Windows, хоча виглядало неефективно.

    Я, як і з Sonnet 4.5, дала Code-x кілька шансів, виправляла подібні проблеми з налаштуванням оточення, зокрема з Docker. І ось, нарешті, все запущено.

    Що я побачила у результаті роботи Code-x:

    • Інтерфейс: Значно поступається тому, що зробив Sonnet 4.5. Його легко покращити, але це вимагає додаткових зусиль.
    • Процес покупки: Виглядає непогано. Додано навіть історію транзакцій, що дуже круто!
    • Оплата: Вибір пакету токенів, перехід до оплати. Мені навіть більше сподобалося прямо на сайті, аніж перехід на окрему сторінку.
    • Успішна оплата: Платіж пройшов, отримано 600 токенів.
    • Проблема: Поточний баланс показує старе значення. Це означає, що синхронізація даних працює не зовсім коректно.
    • Віднімання токенів: Потрібне перезавантаження сторінки, щоб баланс оновився.

    Загалом, це не катастрофа. Результат доволі солідний, але є кілька суттєвих недоробок, які потребують виправлення. Ми маємо 3-4 проблеми, які потрібно “допиляти”.

    Це саме той ідеальний приклад, про який я говорила: завдання не тривіальне, ми бачимо, де ШІ робить помилки, але водночас результат достатньо хороший, щоб його можна було демонструвати, а не бачити просто “чорний екран”.


    Фінальний вердикт: Хто ж король?

    Отже, друзі, підійшов час підбити підсумки нашої сьогоднішньої “техно-битви”.

    Claude Sonnet 4.5 показав себе не просто круто – він показав себе неймовірно.

    • Швидкість: Він перевершив GPT-4 Turbo в рази. 15 хвилин проти 1 години 20 хвилин. Це як порівняти космічний корабель з конем.
    • Якість коду: Хоч і потребував однієї-двох ітерацій для повного ідеалу, результат був дуже близьким до максимального. Інтерфейс, логіка – все було на висоті.
    • Надійність: Модель справді “розуміє” завдання та виконує його ефективно.

    GPT-4 Turbo через Code-x, звісно, видав солідний результат. Якість коду була непоганою, і функціонал (як-от історія транзакцій) був цікавим. Але:

    • Швидкість: Це його слабке місце в цьому тесті. Надмірно повільний.
    • Ефективність: Поведінка під час виконання, повторне читання файлів – все це виглядало як недоліки.
    • Повна реалізація: Незважаючи на тривалий час, залишилося більше проблем, ніж у Sonnet 4.5.

    Моя оцінка:

    Claude Sonnet 4.5 – беззаперечний переможець. Він швидший, чи точніший, і загалом демонструє вищий рівень продуктивності. Це справжній прорив.

    GPT-4 Turbo залишається потужною моделлю, і я впевнена, що OpenAI також не сидітиме склавши руки. Я думаю, що ми побачимо, як Code-x наздожене Claude Code. Але прямо зараз, у цій гонці, Anthropic вирвалися вперед.

    Цікаво, чи повернуть такі результати користувачів, які вже перейшли на сторону OpenAI? Я думаю, так. Коли ти стикаєшся з такою швидкістю та якістю, вибір стає очевидним.

    Це захопливий час для світу AI. Штучний інтелект продовжує розширювати межі можливого. Щотижня з’являються нові інструменти, нові моделі, нові можливості. І моя місія, як вашого гіда у цьому світі – ділитися з вами найцікавішим, найважливішим та найправдивішим.

    Що далі?

    1. Спробуйте самі! Якщо маєте можливість, протестуйте Claude Sonnet 4.5. Поділіться своїми враженнями у коментарях.
    2. Слідкуйте за оновленнями: Ця гонка тільки набирає обертів. Очікуйте нових порівнянь та тестів.
    3. Розширюйте свої знання: Читайте, навчайтеся, експериментуйте. AI – це не просто технологія, це майбутнє, яке ми будуємо вже сьогодні.

    Дякую, що провели цей час зі мною! Якщо вам сподобалася ця стаття і ви хочете більше про великі мовні моделі, AI-кодування та побудову агентів – поставте лайк цій статті (натисніть сердечко, якщо б це було відео ) та підпишіться на мій блог.

    До нових захопливих відкриттів!
    Ваша Ліла Харт.

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x