AI-Диво Тижня: Коли Мозок Машини Здивував Навіть Експертів
Останній тиждень виявився насиченим для світу штучного інтелекту. Звісно, мова про реліз моделей 03 та 04 Mini від OpenAI, які вже викликали бурхливу реакцію в індустрії. Зануримося у ці вражаючі відкриття разом.
Почнемо з Дарії Енутц (сподіваюся, я правильно вимовляю ім’я!). Дарія мала ранній доступ до всіх нещодавніх релізів OpenAI, і її вердикт приголомшливий: “Модель OpenAI 03 – на рівні або майже на рівні генія”.
Звісно ж, знайдуться скептики, які скажуть: “Але вона все ще не може цього”, як це часто буває. Проте, чи дивує нас, що геній (навіть людський) не може все? Цей коментар Дарії відкриває глибину оцінки – модель 03 пройшла тест Mensa IQ і тепер є найінтелектуальнішою моделлю на планеті. Її IQ становить 136, що значно вище за показники Gemini 2.5 Pro (128) та інших моделей, як-от 01 (122) та 01 Pro (122). З десятки найкращих моделей вісім належать OpenAI, підкреслюючи домінування.
Найбільше вражає те, що 03 чудово працює з інструментами, причому використовує їх ітеративно в ланцюжку міркувань. Це настільки ж захоплююче, наскільки корисне.
Дарія продовжує ділитися своїми враженнями: “Я не можу відірватися від неї вже кілька днів. Відчуття таке саме, як з 01 Preview та 01 Pro, але розумніше і надійніше. Вона ніколи не галюцинує, а її нові інструменти для агентів без зусиль справляються з багатоступеневими задачами з неймовірною точністю, генеруючи складні, надзвичайно глибокі та обґрунтовані наукові гіпотези на вимогу”.
Ця модель також перша, про яку OpenAI офіційно заявила, що здатна відкривати нові знання. На складні медичні питання відповіді 03 звучать так, ніби вони надходять безпосередньо від провідних фахівців, – точні, детальні, достовірні та дивовижно професійні.
Інший експерт, знайомий як “Chubby”, зазначає, що 03 вирізняється й у пошуку «голки у стозі сіна» – ефективно працюючи з будь-яким розміром контекстного вікна, від нуля до 120 тисяч.
Ключовим фактором, який відзначає автор огляду, є використання інструментів у середині «ланцюжка міркувань». Це, на його думку, найцікавіше, що він хоче бачити в кожній іншій моделі.
Амджад Масад, генеральний директор Repl.it, теж зачарований: “Виглядає так, ніби 04 mini може здійснювати виклики інструментів усередині ланцюжка міркувань. Круто!”.
Відтепер модель пише код на Python, виконуючи його в ланцюжку міркувань. Розробники бачать в цьому ключовий прорив.
Дейв Шапіро, колега-ентузіаст ШІ, доповнює цю думку: “03 full дійсно є найзахопливішою інновацією в ШІ з часів, напевно, самого ChatGPT. 03 – це якісний стрибок того ж масштабу, що й ChatGPT, з точки зору UX та інструментальної користі для людства”.
Що ще вражає? 03 фактично вирішила проблему гео-Guessing (вгадування місць за зображеннями з Google Street View). Модель швидко і точно визначає локації, аналізуючи деталі на знімках – знаки, дерева, автомобілі. Навіть досвідчений гео-гессер Rainbolt зазнав поразки у вирішенні “неможливих” тестів, що говорить про новий рівень можливостей.
Але не все ідеально. Як і люди, моделі ШІ інколи помиляються. Bojan Tongis з Nvidia запитав про кількість літер “r” у слові “strawberry”, й модель ненароком помилилась. Проте, інша спроба Sean Rston виявилася успішною.
Крім того, 03 здається, добре справляється з проходженням лабіринтів: модель вирішила лабіринт 200×200 за одну спробу.
І це ще не все.
Скотт Свінґінгл заявив, що 04 Mini High вирішила останню проблему Project Euler за 2 хвилини 55 секунд, значно випередивши найшвидших людських вирішувачів. Вона змогла вирішити складну математичну задачу, набагато швидше, ніж це було можливо для людей.
Math Arena Amy показала, що 04 Mini High зайняла перше місце в математиці, набравши на три бали більше, ніж Gemini 2.5 Pro.
У тестуванні кодингу модели 03 та 04 Mini також продемонстрували чудові результати. Обидві моделі бездоганно справились з тестом – рух кульок крізь шестикутники виглядав ідеальним.
Незалежні оцінки підтвердили неймовірні можливості 03 та 04 Mini. 04 Mini High набрала найвищий показник індексу інтелекту Artificial Analysis на сьогодні, 03 продемонструвала значний прогрес у кодуванні, а 04 Mini є суттєвим апгрейдом порівняно з 03 Mini. Остання модель досягла першого місця в індексі кодування, що підтверджується збільшенням показників в Live Codebench та Sciode.
Ціни на 04 Mini аналогічні до 03 Mini, але токени коштують вдвічі дешевше.
Що стосується розміру контекстного вікна, 04 Mini має 200K, що відповідає 03 Mini, але значно менше, ніж 1 мільйон у 4.1.
Використання маркерів (токенів) в ланцюжку міркувань у моделі 03 Mini High також високе – 70 за AI.
Важливо пам’ятати, що все не ідеально. Моделі все ще можуть робити помилки. В одному з тестів, модель безуспішно намагалася ідентифікувати людей на зображенні та їх колір. Проте, це радше нагадування про те, що ШІ ще потребує вдосконалення.
Підсумовуючи, реліз моделей 03 та 04 Mini – це важливий крок вперед, який підкреслює постійний прогрес у сфері штучного інтелекту. Вони продемонстрували вражаючі здібності у різних сферах, від обробки природної мови до вирішення складних математичних задач. Попри недоліки, ці моделі відкривають нові горизонти для майбутнього ШІ. Тож, залишаємося у строю спостерігачів та чекаємо на нові відкриття.