Нові горизонти ШІ: Рецензія на відкриття OpenAI та їх вплив на ваш світ
Наче розмова за чашкою міцної кави, цей відеоогляд розкриває перед нами неймовірні перспективи світу штучного інтелекту. За останні дні OpenAI випустила нові моделі – 03 та 04 mini – і реакція індустрії виявилася воістину вражаючою. Давайте разом зануримося у глибини цих відкриттів, аналізуючи їх потенціал та наслідки для нашого сьогодення.
Почнімо з Дарії Енуц, який мав ранній доступ до нових моделей OpenAI. Його слова звучать як передвісник нової ери: “Модель OpenAI 03 близька до рівня геніальності”. Звісно, знайдуться скептики, які вказуватимуть на обмеження, але як зауважує Дарія: “Скільки мільярдів речей не може зробити геніальна людина?”
Розум, що перевершує все:
Що ж робить цю модель такою особливою? 03 пройшла тест на IQ Mensa, і тепер вона – найрозумніша модель на планеті, з IQ 136. Для порівняння, Gemini 2.5 Pro мала показник 128. 01 модель мала IQ 122, як і 01 Pro. Серед топ-10 моделей, OpenAI належить вісім. Це безперечно вражаюче досягнення.
Але найцікавіше – це здатність 03 геніально використовувати інструменти. Не просто використовувати, а й робити це ітеративно, в процесі мислення. Це справжнє диво.
Інструменти як шлях до відкриттів:
Дарія поділився своїми враженнями: “Вже кілька днів не можу відірватися від неї. Це як прорив, який ми відчули з 01 preview та 01 Pro, але розумніший і надійніший у всіх аспектах. Вона ніколи не галюцинує, а її нові інструменти, як у агентів, легко справляються з багатоетапними завданнями з неймовірною логікою та точністю, генеруючи складні, надзвичайно глибокі та обґрунтовані наукові гіпотези на вимогу. Це також перша модель, яка, за словами OpenAI, здатна відкривати нові знання”.
Коли перед 03 ставлять складні медичні питання, відповіді звучать так, ніби їх дає провідний лікар-спеціаліст. Точно, ретельно, впевнено, з опорою на факти та професійно – саме так, як очікуєш від справжнього експерта.
“Голка в стозі сіна” на новий лад:
Разом з тим, друг каналу Chubby вказує на те, що 03 дуже добре працює з пошуком “голки в стозі сіна”. Вона показала майже бездоганний результат у різних розмірах контекстного вікна, від нуля, до 120 тисяч токенів. Хоча цей показник і поступається Llama 4 та Gemini 2.5 Pro, саме використання інструментів у ланцюжку міркувань – секретний соус.
04 Mini: Здатність до міркування:
Амджад Масад, генеральний директор Repl.it, зазначає, що 04 mini вміє використовувати інструменти всередині ланцюжка міркувань. Це означає, що модель може писати та виконувати код, наприклад, на Python, прямо у процесі пошуку інформації. Це відкриває нові можливості. Ланцюжок міркувань, який використовує інструменти – це, напевно, одне з найвражаючих і найважливіших відкриттів цього року.
Еволюція в AI:
Дейв Шапіро, автор контенту про штучний інтелект, вважає, що 03 full – це “найбільш захоплююча інновація в AI для мене, ймовірно, з часів самого ChatGPT. 03 – це стрибок уперед у масштабах UX та інструментальної корисності для людства”.
Для контексту, коли намагалися розібратися з економікою після кризи за допомогою 01 та 03 Mini, ідеї були розмиті, але 03 full просто сказала: “Ось, я це з’ясувала. Ось показники. Ось формула. Ось теорія. Що далі, бос?” Це справді неймовірно.
Зручні інструменти для навчання:
У зв’язку з появою таких потужних моделей, виникає питання: як отримати з них максимум користі? Автори відео рекомендують звернути увагу на безкоштовний посібник з інженерії підказок від HubSpot . Він демонструє ключові техніки для створення кращих підказок та отримання максимальної віддачі від цих моделей. У посібнику містяться практичні техніки, такі як призначення конкретної ролі ШІ для покращення відповідей, а також поради щодо отримання різних варіантів від моделі та усунення нерозуміння, наприклад, надання додаткового контексту або прикладів. Це дійсно корисний ресурс.
Геогесінг на новому рівні:
ШІ 0.3 також здивував своєю здатністю вирішувати завдання геогесінгу (geoguessing): визначення місцезнаходження зображень з Google Street View. Для геогесінгу потрібні знання про дорожні знаки, дерева, машини, гори чи будь-що. З наявною здатністю, 0.3 визначає локації легко, а точність вражає уяву.
Наприклад, Exuser ORF дав 03 завдання – вгадати локацію з зображення з Street View, поставив під сумнів можливості відомого геогесера Rainbolt. Модель обдумувала інформацію протягом 40 секунд, після чого вказала на Східну Канаду, ймовірно сільський Квебек, а також надала додаткові специфікації. Вражає!
Це не означає, що геогесінг втрачає актуальність. Як і в шахах, де ШІ перевершив людей, але люди продовжують насолоджуватися грою. Так і в геогесінгу, не дивлячись на перевагу ШІ, людям буде цікаво змагатися.
Попередження про ризики:
Але не забувайте про безпеку: ніколи не твітіть своє місцезнаходження. Тепер будь-хто з цим ШІ може встановити ваше місцезнаходження. Будьте обережні, що постите в Інтернеті.
Гастрономічні загадки:
Ще один приклад: зображення страви в ресторані. Три хвилини, щоб визначити місцезнаходження – японська страва, але в Чикаго. OpenAI, ймовірно, змогла знайти інформацію на Yelp або Google Places. Це вражає!
Недоліки та виклики:
Не все ідеально. Моделі можуть помилятися. Наприклад, відповідь на питання про кількість літер “r” в слові “strawberry” може бути неправильною.
Не дивлячись на помилки, 03 також добре справляється з проходженням лабіринту. Рішення проходить через весь лабіринт бездоганно з першого разу. Мультимодальні можливості 03 – неймовірні.
04 Mini: Продуктивність та переваги:
Спеціаліст Скотт Свінгінгл стверджує, що 04 mini High розв’язала останню задачу Project Euler всього за 2 хвилини 55 секунд. Це значно швидше, ніж будь-який вирішувач-людина.
У Math Arena, 04 mini high набрала 89% та зайняла перше місце в математичних тестах.
З точки зору кодування, 03 та 04 mini показали чудові результати – обидві моделі працюють бездоганно, наприклад, зі складною задачею з кульками та шестикутниками.
04 Mini – це значне покращення моделі 03 mini. 04 mini досягла першого місця в індексі кодування, покращивши показники на 7% як в Live Codebench, так і в Sciode. Навіть Gemini 2.5 Pro не досягала таких результатів.
Ціноутворення та контекстне вікно:
Ціни на 04 mini такі ж, як і на 03 mini, але токени коштують вдвічі дешевше. При цьому Gemini 2.5 Flash ще дешевша.
Контекстне вікно 04 Mini становить 200 тисяч токенів, як і у 03 Mini, що менше, ніж у 4.1, який має 1 мільйон токенів. Gemini 2.5 Pro також має велике контекстне вікно.
Продуктивність та ефективність:
03 mini High набрала 70 балів в індексі штучного інтелекту. Отримані результати показують загальну оцінку, а також результати тестування різних моделей.
Якщо ви порахуєте загальну кількість токенів, використаних для запуску тестування, то найменше токенів використовує 03 mini. Цей показник є дуже важливим, оскільки чим менше токенів використовується для обробки інформації, тим дешевше, швидше та ефективніше працює модель.
Недоліки залишаються:
Не все ідеально. Наприклад, модель може зробити помилку в визначенні кольору об’єкту.
Підсумки та висновки:
Підводячи підсумки, можна сказати, що на цьому тижні вийшло кілька неймовірних моделей. Вони демонструють вражаючі можливості в різних областях, від вирішення математичних задач до геогесінгу та кодування. 03 та 04 mini відкривають нові горизонти для штучного інтелекту, але залишаються недоліки, які потрібно враховувати.
Що ви думаєте про ці моделі? Діліться своїми враженнями та думками в коментарях нижче!