AI-Диво Тижня: Коли Мозок Машини Здивував Навіть Експертів

    .

    Останній тиждень виявився насиченим для світу штучного інтелекту. Звісно, мова про реліз моделей 03 та 04 Mini. Від OpenAI, які вже викликали бурхливу реакцію в індустрії. Звичайно, зануримося у ці вражаючі відкриття разом.

    Почнемо з Дарії Енутц (сподіваюся, я правильно вимовляю ім’я! ). Дарія мала ранній доступ до всіх нещодавніх релізів OpenAI, і її вердикт приголомшливий: “Модель OpenAI 03 – на рівні або майже на рівні генія”.

    Звісно ж, знайдуться скептики, які скажуть: “Але вона. Зрозуміло, все ще не може цього”, як це часто буває. Проте, чи дивує нас, що геній (навіть людський) не може все? До речі, цей коментар Дарії відкриває глибину оцінки – модель 03 пройшла. Тест Mensa IQ і тепер є найінтелектуальнішою моделлю на планеті. Цікаво, її розумієте, IQ становить 136, що значно вище за показники Gemini 2. 5 Pro (128) та інших моделей, як-от знаєте, 01 (122) та 01 Pro (122), типу того. З десятки найкращих моделей вісім належать OpenAI, підкреслюючи домінування.

    Найбільше вражає те, що 03 чудово працює з десь так, інструментами, причому використовує їх ітеративно в ланцюжку міркувань, типу того. Це настільки ж захоплююче, наскільки корисне. Щоб було ясно,

    Дарія продовжує ділитися своїми враженнями: “Я не можу відірватися від неї вже кілька днів. Відчуття таке саме, як з 01 Preview та 01 Pro, але розумніше і надійніше. Вона ніколи не галюцинує, а її нові інструменти для агентів без зусиль справляються з багатоступеневими задачами з неймовірною точністю, генеруючи складні, надзвичайно глибокі та обґрунтовані наукові гіпотези на вимогу”.

    Ця модель також перша, дивіться, про яку, якось так. OpenAI офіційно взагалі, заявила, що здатна відкривати нові знання. На складні медичні питання відповіді 03 звучать так, ніби вони надходять безпосередньо від провідних фахівців, – точні, детальні, достовірні та дивовижно професійні.

    Інший експерт, знайомий як “Chubby”, зазначає, що 03 вирізняється й у пошуку “голки у. Стозі сіна” – ефективно працюючи з будь-яким розміром контекстного вікна, від нуля до 120 тисяч.

    Ключовим фактором, який відзначає автор огляду, є використання інструментів у середині “ланцюжка міркувань”. Це, на його думку, найцікавіше, що він хоче бачити в кожній іншій моделі. Звичайно, бачите,

    Амджад Масад, генеральний директор Repl. It, теж зачарований: “Виглядає так, ніби 04 mini може здійснювати виклики інструментів усередині ланцюжка міркувань. Круто! “.

    Відтепер модель пише код на Python, виконуючи його в ланцюжку міркувань. Розробники бачать в цьому ключовий прорив.

    Дейв Шапіро, колега-ентузіаст ШІ, доповнює цю думку: “03 full. Дійсно є найзахопливішою інновацією в ШІ з часів, напевно, самого ChatGPT. Чесно кажучи, 03 – це якісний стрибок того ж масштабу, що й ChatGPT, з точки зору UX та інструментальної користі для людства”.

    Що ще вражає? Щоб було ясно, 03 фактично вирішила наприклад, проблему гео-Guessing (вгадування місць за зображеннями з Google Street View). Модель швидко і точно визначає локації, аналізуючи деталі на знімках – знаки, дерева, автомобілі. Навіть досвідчений гео-гессер Rainbolt зазнав поразки у вирішенні “неможливих” тестів, що говорить про новий рівень можливостей. До речі,

    Але не все ідеально. Як і люди, знаєте, моделі ШІ інколи помиляються. Bojan Tongis з Nvidia запитав про кількість літер “r” у слові “strawberry”, й модель ненароком помилилась. Чесно кажучи, проте, інша спроба Sean Rston виявилася успішною.

    03 здається, добре справляється з проходженням лабіринтів: значить, модель вирішила лабіринт 200×200 за одну спробу, в такому дусі.

    І це ще не все.

    Скотт Свінґінгл заявив, що 04 Mini High вирішила останню проблему. Project Euler за 2 хвилини 55 секунд, значно випередивши найшвидших людських вирішувачів. Вона змогла вирішити складну математичну задачу, набагато швидше, ніж це було можливо для людей.

    Math Arena Amy показала, що 04 Mini High зайняла перше. Місце в математиці, набравши на три бали більше, ніж Gemini 2. 5 Pro. Очевидно,

    У тестуванні кодингу модели 03 та 04 Mini також продемонстрували чудові результати. Чесно кажучи, обидві моделі бездоганно справились з тестом – рух кульок крізь шестикутники виглядав ідеальним.

    Незалежні оцінки підтвердили типу, неймовірні можливості 03 та 04 Mini. 04 Mini High набрала найвищий показник індексу інтелекту Artificial Analysis на сьогодні, 03 продемонструвала значний прогрес у кодуванні, а 04 Mini є суттєвим апгрейдом порівняно з 03 Mini. Більше того, остання модель досягла першого місця в індексі кодування, що підтверджується збільшенням показників в Live Codebench та Sciode. Насправді,

    Ціни на 04 Mini аналогічні до 03 Mini, але токени коштують вдвічі дешевше.

    Що стосується розміру контекстного вікна, 04 Mini має 200K, що відповідає 03 Mini, але значно менше, ніж 1 мільйон у 4. 1.

    Використання маркерів (токенів) в ланцюжку міркувань у моделі 03 Mini High також високе – 70 за AI.

    Важливо пам’ятати, що все не ідеально. Фактично, моделі все ще можуть робити помилки. В одному з значить, тестів, модель безуспішно намагалася ідентифікувати людей на зображенні та їх колір, в такому дусі. Проте, це радше нагадування розумієте, про те, що ШІ ще потребує вдосконалення.

    реліз моделей 03 та 04 Mini – це важливий крок вперед, який підкреслює постійний прогрес у сфері штучного інтелекту. Вони продемонстрували вражаючі здібності у різних сферах, від обробки природної мови до вирішення складних математичних задач. Попри недоліки, ці моделі відкривають нові горизонти для майбутнього ШІ. Тож, залишаємося у строю спостерігачів та чекаємо на нові відкриття.

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x