03 Pro: Чи справді нова зірка OpenAI – чи лише блискучий метеор?
Я пам’ятаю, як вперше почула про OpenAI – це було шалено захоплююче. Майбутнє, де штучний інтелект стає нашим партнером, генератором ідей та помічником у, здавалося б, неможливих завданнях. І ось, новини – OpenAI випускає 03 Pro, найпотужнішу на сьогодні модель. Але чи справді це прорив, чи просто ще один крок у постійній гонці технологій? Давайте розберемось.
Відео, яке я переглянула, було наповнене як захопленням, так і обережністю. З одного боку, 03 Pro отримала високі оцінки в експертних оцінках, особливо в таких сферах, як наука, програмування та аналіз даних. З іншого – спостерігалась дивна повільність роботи. Наче інтелект моделі вагався, роздумуючи над простими питаннями хвилинами. До того ж, ця новинка вийшла майже одночасно зі зниженням цін на 03 базову модель на 80%. Тож, чи це просто маркетинговий хід, чи щось глибше?
Що кажуть експерти?
Оцінки 03 Pro відрізняються від попередньої версії, 03. Експерти віддають перевагу Pro версії, що підкреслює її вдосконалення в ключових областях. Зокрема, відзначається покращення в чіткості, повноті відповідей, здатності слідувати інструкціям та точності. Але найцікавіше – оцінка в області письма. Оскільки ця область не має верифікованої винагороди, досягти прогресу тут складніше.
Відео показує порівняльну таблицю успішності людських тестувальників проти GPT-3 та GPT-3 Pro. Результати:
- За всіма запитами – 64% успіху
- Науковий аналіз – 64%
- Особисте письмо – 66%
- Комп’ютерне програмування – 62%
- Аналіз даних – 64%
Звісно, як і інші моделі, орієнтовані на логіку, 03 Pro демонструє чудові результати в математиці, науці та програмуванні. На прикладі коду Codeforces, модель досягла показника 2748 ELO. Це вражаючий результат, що робить її конкурентноздатною навіть проти деяких людей! Для тих, кому цікаво, 03 Pro тепер посідає 159 місце у світі з змагального програмування.
Тут варто згадати ще одну деталь. Щоб перевірити, чи не пощастило моделі, OpenAI використовує тест, який вимагає, щоб модель отримала правильну відповідь чотири рази з чотирьох. Результати були трохи скромнішими, але все ще вражаючими.
03 Pro на практиці
Модель оснащена всіма необхідними інструментами: пошук в Інтернеті, аналіз файлів, виконання коду, робота з зображеннями та доступ до пам’яті. Звучить багатообіцяюче, чи не так? Але, як показують відгуки, є нюанси.
Грег Кемерон, президент Arc Prize, тестував модель. Його враження були неоднозначними: “Я був здивований, побачивши, що продуктивність відповідає 03, випущеній у квітні, тобто значного стрибка в продуктивності не було, але я не думаю, що це передає всю картину. Я відчуваю, що 03 Pro буде набагато надійнішою та ретельнішою, навіть якщо інтелект не покращився”.
Інші експерменти виявилися ще показовішими. Флавіо Адамо, відомий своїми експериментами з м’ячами, відзначив, що модель справляється з реалістичними зіткненнями практично ідеально. Але швидкість… Найпростіші питання потребували 10-20 хвилин обробки.
Гіперболічний Лабс зазначили, що 03 Pro – найповільніша та така, що надто довго обмірковує. Один запит коштував 80 доларів, і це без врахування інтерфейсу.
Прикро, але Маккей Врігглі повідомив, що його останні 4 запити до 03 Pro в ChachiBT потребували 26, 23, 19 та 21 хвилину роздумів.
Чому ж так багато часу?
І тут виникає цікавий момент: що саме думає модель протягом цих хвилин? На жаль, ланцюжок міркувань прихований, а підсумки – безглузді.
Метт Шумер зазначив, що отримав відповідь з сімома словами. І це була правильна відповідь!
І, звісно, модель вдалося зламати. З цим невеликим недоліком, і це є очевидним наслідком.
Погляд зсередини
Є й інші вражаючі відгуки, що показують, як 03 Pro може допомогти в реальному бізнесі. Бен з Raindrop поділився, що модель допомогла їм створити конкретний план розвитку, який змінив їхнє бачення майбутнього.
Також згадується історія лікаря Дарії, яка використовувала 03 Pro для розробки “імунної системи 2.0”. Модель демонструвала глибше розуміння імунної системи.
Етан Моллік дав моделі загадку – створення “словесної драбини” від “землі” до “космосу” за допомогою поетапної зміни однієї літери. Модель впоралася бездоганно.
Рубік Кубик: Тест на міцність
Автор відео тестував модель на здатність створити симуляцію кубика Рубіка. На жаль, результат був невдалим. Модель витратила 12 хвилин і 10 секунд на створення коду, але отриманий кубик був плоским і не функціонував.
Висновок
Отже, що ми маємо? 03 Pro – це безумовно потужна модель, яка демонструє чудові результати в певних областях. Вона вміє аналізувати дані, генерувати плани, розв’язувати складні задачі. Але повільність роботи, висока вартість та відсутність прозорості викликають питання.
Можливо, це лише початок, і з часом OpenAI оптимізує та покращить роботу моделі. Можливо, нам просто потрібно переосмислити, як ми використовуємо ці інструменти. Не варто забувати про те, що штучний інтелект – це партнер, помічник, а не абсолютна істина. Важливо експериментувати, досліджувати та знаходити способи, як нові технології можуть допомогти нам у реальному житті.
Які ваші думки? Чи вважаєте ви 03 Pro проривом, чи просто ще одним кроком уперед? Поділіться своїми враженнями!