Grok 4: Коли штучний слухайте, інтелект зустрічає реальний світ

    Я сиділа, затамувавши подих, коли дивилася відео. Екран показував надскладне математичне рівняння, яке розв’язували чотири штучні агенти одночасно. Агенти, народжені в надрах нової, неймовірної моделі штучного інтелекту – Grok 4. Це було не просто про технології. Це було про відчуття моменту, коли штучний інтелект починає. Стикатися з реальним світом і кидати виклик людському розуму.

    У відео, яке я переглядала, автор поринає у глибини нової версії Grok, розробленої X. AI, переконливо демонструючи, що Ілон Маск, здається, таки мав рацію. Простіше кажучи, це значить, не просто модель – це стрибок у майбутнє, десь так. І хоча я, як журналіст, спочатку скептично ставилася до таких заяв, побачене змусило мене замислитися.

    Автор відео розповідає про еволюцію моделей Grok. Від Grok 2, який базувався на прогнозуванні наступного токена, до Grok 3, що вдосконалився завдяки збільшеному об’єму обчислень. Чесно кажучи, щоб було ясно, і тепер – Grok 4, який зроблений на основі потужної. Системи навчання з бачите, підкріпленням (reinforcement learning) з перевіряємими винагородами (verifiable rewards). Саме це нововведення, за словами авторів, і стало ключем до прориву.

    Суть полягає в тому, що модель навчається на задачах, де правильна відповідь відома. Наприклад, “2 + 2 = 4”. Якщо модель правильно розв’язує задачу, вона отримує винагороду. Повторюючи цей процес з величезною кількістю складних задач, Grok 4 стає надзвичайно розумною. Тут типу, автор згадує метафору, що це якби ви. Тренували дитину, даючи їй цукерки за правильні відповіді.

    Однак, як і з будь-якою системою навчання, існує обмеження: кількість задач з відомими відповідями. У цьому контексті, Ілон Маск заговорив про реальний світ як про кінцевий тест, типу того. Очевидно, коли, скажімо, робот взаємодіє з фізичним світом, кількість перевіряємих винагород стає практично безмежною. Це дозволяє моделям вчитися з нескінченної кількості реальних сценаріїв.

    Найбільш вражаюча частина відео присвячена бенчмаркам. А саме, тесту на значить, “Останній Екзамен Людства” (Humanity’s Last Exam), десь так. Це дуже складний іспит, що охоплює знання з різних галузей, від математики до хімії. Чесно кажучи, автори відео порівнювали продуктивність Grok 4 з іншими. Передовими припустимо, модельними системами, демонструючи разючу перевагу нової розробки. Фактично,

    Наприклад, модель Grok 4 без використання спеціальних інструментів вже показує результат на 26. 9%. Але коли до неї було додано такі інструменти, як веб-браузер. Безумовно, та можливість написання і виконання коду, результат зріс до 41%! І, нарешті, з використанням додаткових обчислень, результат сягнув 50. 7%, що розумієте, на голову вище за показники інших моделей.

    Вражаючим аспектом Grok припустимо, 4 є використання декількох агентів для вирішення задач. Кожен агент працює над розв’язанням проблеми, ділиться здобутими знаннями, і врешті-решт, обирається найкраще рішення. Цей дивіться, підхід, здається, став ключем до досягнення надзвичайних результатів, щось на зразок.

    Окремо автор відео звертає увагу на те, як Grok 4 була використана для. Реальних задач, таких як прогнозування переможця Світової серії, і генерації візуалізації зіткнення чорних дір. Ці приклади добре демонструють, що Grok 4 здатна не тільки розв’язувати абстрактні. Цікаво, проблеми, але й генерувати реалістичні відповіді на питання, пов’язані з реальним світом.

    скажімо,

    Ще більш вражаючими є результати на інших бенчмарках. Наприклад, на дивіться, тесті GPQA Grok 4 показала результат у 87% (без інструментів) і 88. 9% (з інструментами), що значно перевищує показники інших моделей. На тесті Math Arena результат склав 96. 7%, а на USA наприклад, MO (Математична олімпіада) Grok 4 просто розтрощила своїх конкурентів.

    Grok 4 демонструє неймовірні результати на ARC AGI – тесті, який спеціально розроблений, щоб бути легким для людей, але дуже складним для ШІ. Дивно, grok 4 показала результат у 66 проте 6%, що значно перевершило попередній рекорд.

    Але найцікавіше, на мою думку, – це реальне застосування. Справа в бачите, тому, що наприклад, Grok 4 протестували у керуванні віртуальним торговим автоматом. Результати перевершили всі очікування, зокрема, Grok 4 значно випередила людей та інші моделі. Ще один приклад – створення дивіться, відеоігор за допомогою Grok 4 всього за кілька годин.

    Проте, Ілон Маск дивіться, вважає, знаєте, що справжні “AAA” відеоігри ще не скоро стануть реальністю. Для цього, на його думку, ШІ повинен мати. Розвинене “відчуття смаку”, а це, наразі, прерогатива людини.

    Щодо ціни, то вартість підписки на Super Grok становить 30. Доларів на місяць, а Super Grok Heavy – 300 доларів на місяць. Це може бути дорожче, ніж підписки на ChatGPT та Claude, натомість користувачі отримують доступ до всіх можливостей Grok 4 Heavy, вищих лімітів використання та раннього доступа до нових функцій.

    Враження від побаченого у мене залишились неоднозначні. Очевидно, з бачите, одного боку, вражаючі можливості Grok 4 змушують замислитися про потенціал штучного інтелекту. З іншого боку, як журналіст, я відчуваю певну тривожність. Ми стоїмо на порозі епохи, коли машини можуть перевершувати людей у багатьох інтелектуальних задачах.

    Але, як зазначив сам автор відео, попереду ще багато роботи. Команда X. Простіше кажучи, aI працює над покращенням моделей, і в найближчому майбутньому варто очікувати нові релізи. Плануються моделі бачите, для кодування, мультимодальні агенти та генератори відео.

    Мені здається, що ми на початку захоплюючого шляху, де взаємодія між людьми та штучним інтелектом буде ставати все тіснішою. І хоча майбутнє залишається загадкою, ясно одне – ми на порозі епохи великих змін.

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x