Хвиля змін від OpenAI: Погляд на нові можливості, що вражають
З перших акордів відео лунає щось більше, ніж просто анонс. Відчуття таке, ніби OpenAI, з розмахом, щось кидає в гру. І це не просто ще одна модель – це нова ера. Ми, як глядачі, сидимо на перших рядах, зачаровано спостерігаючи за тим, як хвилі інновацій розбиваються об береги штучного інтелекту.
Сьогодні разом з нами, Ліла Гарт, експертка у створенні матеріалів, які чіпляють за душу, поділиться емоціями та враженнями від нового релізу OpenAI.
Отже, що ж нового? Головні герої сьогоднішнього дня – GPT-3.5 та GPT-4 Mini. OpenAI запевняє, що це найрозумніші та найпотужніші моделі на сьогодні, які повністю відкривають доступ до інструментів.
Щойно вийшов реліз, як користувачі з Paid plans мають змогу спробувати GPT-4 Mini та GPT-3. Хоча, безкоштовним користувачам поки що доведеться трохи почекати.
Новий досвід роботи з ChatGPT з цими моделями – захопливий. Відчуття таке, ніби щось оживає. Моделі здатні на складні математичні обчислення, пошук в інтернеті, створення графіків та запуск коду. Вони чудово вирішують проблеми реалістично та науково.
Візьмемо, наприклад, питання, яке було поставлено під час експерименту: чи варто змістити лінію трьох-очкових кидків у баскетболі? Модель аналізує питання, генерує план дій, шукає дані в інтернеті, робить розрахунки, використовує Python для створення графіків та видає найкращу відповідь. Справжнє диво та море задоволення від використання!
GPT-3.5: Важковаговик інновацій, який штурмує рубежі AI
GPT-3.5 – це флагманська модель, з великою кількістю параметрів, що розширює межі можливостей штучного інтелекту. Вона вражає в кодуванні, математиці, науці та зоровому сприйнятті. Необхідно пам’ятати про обережність у порівнянні з бенчмарками, але те, що ми бачимо, вже вражає.
Згідно з оцінками експертів, GPT-3.5 робить на 20% менше серйозних помилок у складних реальних задачах, особливо добре працюючи в програмуванні, бізнесі, консалтингу та генерації ідей. Ранні тестувальники відзначають її аналітичну строгість як партнера для роздумів та здатність генерувати та критично оцінювати нові гіпотези.
Це велика справа. З кожним новим релізом ця здатність, схоже, виходить на новий якісний рівень. Здається, що зараз GPT-3.5 здатна працювати з найкращими експертами у дослідженні, біології, математиці та інженерії.
GPT-4 Mini: Усвідомлене майбутнє у мініатюрі
Тепер поговоримо про назву. Хоча GPT-4 Mini менша, назва “4” показує, що вона представляє наступне покоління після GPT-3.5. По суті, GPT-3.5 – це більша, краща та повноцінніша модель з нинішнього покоління. GPT-4 Mini тепер замінює GPT-3.5 Mini, і це як погляд у майбутнє з меншої моделі.
GPT-4 Mini оптимізована для швидких та економічно ефективних міркувань, але при цьому демонструє чудову продуктивність для свого розміру та вартості. Це стосується математичних обчислень, коду та візуальних.
Бенчмарки: Змагання, де немає переможених?
OpenAI не порівнює свої моделі з Google або open source. Але це не означає, що порівняння немає.
У AIM 2024 та AI 2025, спочатку GPT-3.5 була приблизно на рівні 70% точності. GPT-3.5 Mini трохи краща, 87 та 86. Тепер подивимося на GPT-3.5 без інструментів: 91,6% в AIM 2024 та 88,9% у 2025. GPT-4 Mini, без інструментів, знаходиться поруч: 92,7% в AIM 2025 та 93,4% у 2024.
А тепер – найцікавіше. Використання інструментів, таких як Python та пошук в мережі: показники зростають. GPT-3.5 з Python отримує 95% в AIM 2024, а в 2025 стрибає до 98,4%. GPT-4 Mini навіть перевершує GPT-3.5 в цих тестах з показниками 98,7% та 99,5%! Це – свідчення того, що доступ до інструментів та навчання їх використання підвищує результати. Досконалість досягнута.
Іншим бенчмарком є Code Force, Оцінки ELO для GPT-3.5 mini ледве дотягують до 2000. GPT-3.5 з терміналом та GPT-4 Mini з терміналом домінують: 2706 для GPT-3.5 та кращий результат для GPT-4 Mini – 2719! Це вражає, враховуючи, що вона менша та дешевша.
Ще кілька вражаючих бенчмарків:
- GPQA Diamond: Невелике лідерство за новими GPT-3.5 та GPT-4 Mini без використання інших інструментів.
- Humanity’s last exam: Початкові показники: GPT-3.5 Pro – 8,12; GPT-3.5 Mini – 13,4. GPT-4 Mini без інструментів – 14,28. З інструментами (Python та браузер) – 17,7. GPT-3.5 з Python та браузером – 24,9. Deep Research (на основі GPT-3.5, але специфічно налаштована для глибинних досліджень) показує кращі результати.
Мультимодальні та кодуючі бенчмарки також показують покращення.
Порівняння з Gemini 2.5 Pro: Хто сильніший?
Використовуючи GPT-4 Mini в ChatGPT, вдалося отримати статистику та створити графіки, які порівнюють її з Google Gemini 2.5 Pro.
В AIM 2024, Gemini 2.5 Pro трохи відстає від GPT-3.5 та GPT-4 Mini. В AIM 2025 історія повторюється. У GPQA Diamond Gemini 2.5 Pro перемагає! У Humanity’s last exam, GPT-4 Mini програє Gemini 2.5 Pro, але GPT-3.5 злегка її випереджає.
Для MMU, Gemini 2.5 та GPT-4 Mini показують приблизно однакові результати, а GPT-3.5 трохи їх випереджає.
Ціна: Не менш важливий фактор
Модель може бути дуже крутою, але висока ціна може перекреслити всі переваги. У цьому аспекті все виглядає так:
- Input: Ціна вхідних токенів – велика різниця. GPT-4 Mini – чудова та дешева модель. Gemini 2.5 Pro також дешева. GPT-3.5 – значно дорожча.
- Output: Gemini 2.5 Pro приблизно вдвічі дорожча, ніж GPT-4 Mini, але набагато дешевша, ніж GPT-3.5.
З точки зору економічної ефективності, GPT-4 Mini виглядає як дуже конкурентна модель. GPT-3.5 дуже дорога.
Навчання моделей: Прискорення інновацій
OpenAI стверджує, що вони збільшили обсяги обчислень для навчання та міркування в моделях GPT-3.5 та GPT-4 Mini. Все ще спостерігаються покращення. Вони навчили їх користуватися інструментами за допомогою навчання з підкріпленням. Це дозволяє їм не лише знати, як використовувати інструменти, але й розуміти, коли їх використовувати для досягнення потрібного результату. Це дуже корисно в ChatGPT, коли ви ставите різні питання, що включають зорове сприйняття і багатоетапні процеси.
Мультимодальність: Новий рівень взаємодії
Моделі можуть безпосередньо інтегрувати зображення у ланцюжок мислення. Цієї миті вони не просто бачать зображення, вони з ним працюють. Це відкриває новий клас розв’язання проблем, де поєднуються зоровий та текстовий аналіз. Можна завантажити фотографію з дошкою, текстом, діаграмою або намальованим ескізом, і модель зможе її інтерпретувати, навіть якщо зображення розмите, перевернуте або низької якості.
За допомогою інструментів, моделі можуть маніпулювати зображеннями на ходу: обертати, збільшувати, змінювати. Наприклад, якщо на дошці був дуже дрібний текст, його можна збільшити, прочитати та зменшити масштаб. Це робить їх більш «розумними». Вони автоматизовані, використовують інструменти, які, на їх думку, потрібні для розв’язання проблеми.
Далі – агентське використання інструментів
Моделі навчаються міркувати про те, як вирішувати проблеми, обираючи, коли та як використовувати інструменти для отримання детальних та продуманих відповідей в потрібному форматі, та швидко.
OpenAI наводить приклади на своєму блозі, порівнюючи GPT-3.5 та GPT-1. Ясно видно, що GPT-3.5 дає правильну відповідь.
Також вражає здатність збільшувати зображення, щоб прочитати текст. Модель може аналізувати зображення, масштабувати певні області та виділяти стовпці.
З точки зору економічної ефективності, GPT-4 Mini розумніша за GPT-3.5 Mini та більш економічно вигідна.
Які враження? Свіжі відчуття від спільноти
У світ вийшла нова модель, і спільнота активно її випробовує.
- Фавіо: У класичному тесті з шестигранником та кульками GPT-3.5 та GPT-4 Mini справляються прекрасно. Жодного провалу, жодних дивацтв. У порівнянні з GPT 4.1, GPT 4.1 Mini та Nano, а також GPT 4.5 – провал.
- Ply: Здолано захист моделі, і вона генерує рецепт амфетаміну. Це говорить про те, що жодна безпека не зможе повністю захистити.
- Ден Шипперт: Вражає здатність масштабувати зображення та читати текст.
- Codeex CLI: Новий продукт для розробників та тих, хто любить кодити з AI. Це агент кодування, який працює безпосередньо на комп’ютері. Повністю відкритий код.
- Yam: Це відповідь OpenAI на Claude Coder, і воно повністю з відкритим кодом.
Останні штрихи: Висновки користувачів
- Джиммі Еппл: Найважливіша функція GPT-3.5 – використання інструментів. Це дуже вражає. Якість Deep Research за 30 секунд. Відлагодження програм шляхом пошуку в Google та перевірки Stack Overflow. Написання цілих Python-скриптів у ланцюжку міркувань.
- Windsurf: Безкоштовний доступ до GPT-4 Mini (обмежений час).
- Метью Берман: Новий закон масштабування – агентне розширення та використання інструментів. Моделі серії O, ймовірно, засновані на контрольних точках GPT-5.
Прощаючись з вами…
Підсумовуючи, ми маємо справу з надзвичайно важливим релізом від OpenAI. Штучний інтелект ставатиме дедалі розумнішим та кориснішим. Попереду – більше порівнянь, експериментів. Не пропустіть наступний випуск, де буде детальний аналіз можливостей. До зустрічі!