Штучний інтелект, що відтворює штучний інтелект: розбір Paperbench від OpenAI.

Штучний інтелект копіює штучний інтелект: Розбираємо Paperbench від OpenAI

Гей, друзі! Кейсі Байт на зв’язку, і сьогодні ми занурюємося в. Захопливий світ штучного десь так, інтелекту та його здатності до самовідтворення, приблизно так. OpenAI нещодавно випустили статтю про те, як штучний інтелект може відтворювати передові дослідження у сфері AI. Звучить як наукова фантастика та ну, майже. Давайте розберемося з цим докладніше, використовуючи відео з чудовим поясненням.

Що таке Paperbench?

Paperbench – це не просто чергова стаття, а справжній бенчмарк, розроблений OpenAI для оцінювання здатності AI-агентів відтворювати (або, як кажуть у відео, “реплікувати”) результати досліджень у сфері машинного навчання. Щоб було ясно, уявіть собі: AI-агенти, які не просто читають папери, а й пишуть код, запускають експерименти та відтворюють результати дослідження.

Це як якщо б ви віддали завдання улюбленому програмісту, і він міг би відтворити все, що написано в статті, навіть не читаючи її. Зрозуміло,

Чому це важливо?

Дослідники вважають, що AI-агенти, здатні автономно копіювати наукові статті. З машинного навчання, можуть значно прискорити прогрес у цій галузі. Уявіть собі, що AI робить більше, ніж просто копіює: він відкриває нові способи покращення себе, запускає нові ітерації та фактично запускає інтелектуальний вибух (як його називає Леопольд Дешер Бренер). Звучить трохи страшно, але ж захопливо, правда?

Саме тому Paperbench зосереджується на безпечному розвитку можливостей AI.

Як працює Paperbench?

Основна ідея полягає в тому, щоб надати AI-агенту:

Текст наукової статті: Агент отримує доступ до тексту дослідження.
Інструменти: Доступ до інтернету, терміналу Bash, середовища Python.
Завдання: Відтворити результати, описані в статті.

Це наче віддати розгубленому програмісту купу інструментів, папір і попросити його реалізувати концепцію.

Процес відтворення:

Отримання статті. Агенту дають доступ до тексту дослідження. Більше того,
Написання коду. Агент пише код з нуля, щоб реалізувати експерименти з дослідження.
Запуск експериментів. Насправді, Код виконується але
Оцінка (суддя). Досягнуті результати порівнюються з оригінальною статтею.

Звучить просто, але на практиці це дуже складно. Експертам-людям потрібні дні, а агенти тепер це роблять за лічені години! Зрозуміло,

З чого складається Paperbench?

Набір Paperbench містить 20 недавніх досліджень з машинного навчання, що охоплюють 12 різних тем (взятих з ICML – міжнародної конференції з машинного навчання). Сюди входять такі області, як глибоке навчання з підкріпленням, стійкість та ймовірнісні методи.

Оцінка (Rubyka):

Кожна стаття в Paperbench супроводжується власною “рубрикою”, створеною спільно з авторами паперів. Ці рубрики визначають усі необхідні для відтворення результатів вимоги (тобто які результати є потрібними), якось так.
Рубрика – це як інструкція з оцінювання, написана спільно з авторами наукових робіт.

Хто найкращий? Більше того, (Результати)

Антропоморфний Клод 3. 5 Сонат: Найкраща продуктивність – 21%
OpenAI GPT-4 01: 13. Насправді, 2%
Інші знаєте, моделі: Результати нижче 10%

Цікаво, що Gemini 2. 5 Pro з Google, який, на думку автора відео, є найкращим для кодування, не було протестовано.

Архитектура Paperbench:

Стаття.
Агент: Агент розмірковує, використовує розумієте, інструменти, читає папір, пише початковий код, реалізовує його, пише код для отримання бажаного результату.
reproduce. Зрозуміло, sh: Скрипт для запуску всіх файлів та спроби відтворення результатів. Звичайно,
Суддя (Judge) та оцінка: Перевірка результатів на відповідність вимогам, оцінювання поданого коду, оцінка. Щоб було ясно,
Підсумкове значення. (Final Score)

По суті, відтворення включає в себе розуміння статті, розробку кодової бази з нуля для реалізації всіх експериментів, їх запуск, моніторинг та усунення несправностей.

Деталі оцінювання (Розбиваємо оцінку):

Оцінка відбувається за. Дереваподібною системою, що дозволяє оцінити різні аспекти роботи.
Замість простої оцінки “успішно/провалено”, система оцінює деталі відтворення.

Pass / Fail (Пройшов / Не пройшов) – загальний результат.
Результати відповідності (Result match) – чи підтверджуються результати, наведених у статті. Безумовно,
Виконання (Execution) – чи успішно виконано код.
Розробка коду (Code development) – відповідність коду завданням.

Такий підхід нагадує процес винагороди у навчанні, де заохочується навіть частковий успіх – наприклад, якщо код виконує 9 з 10 кроків правильно, агент отримує винагороду за ці 9, а не зазнає повної невдачі.

Правила роботи Paperbench (Обмеження для агентів):

Агностицизм до агента: Paperbench працює з будь-яким агентом та основою.
Інтернет, але не авторський код: Агент має доступ до інтернету, але не може просто скачати код автора. Існують “чорні списки” веб-сайтів, де це заборонено. Насправді,
Ресурси без обмежень: Немає обмежень на обчислювальні потужності та час.
API Keys (Ключі API): Агентам надаються ключі API для необхідних онлайн-сервісів, наприклад, HuggingFace.

Paperbench Codev:

Для зниження витрат було створено Paperbench в принципі, Codev, зосереджений лише на розробці коду, а не на виконанні.

Він:

Знижує вартість оцінювання на 85%.
Вартість запуску становить близько $400 на один paper. Насправді,
Для одного оцінювання (суддя) потрібно $66 (03 Mini Simple Judge).

Обмеження (Ахіллесова п’ята):

Розмір наприклад, набору даних: Paperbench містить лише 20 статей, що може бути недостатньо для оцінки всіх аспектів.
Складність рубрик: Кожна рубрика містить сотні вузлів, що показує велику кількість вимог.
Забруднення (Contamination): Можливо, деякі моделі могли бути. Навчені на статті, які тестуються (але це малоймовірно).
Складність створення набору даних: Створення статей вимагає багато часу та зусиль.
Точність судді: Суддя на базі LLM ще не такий точний, як людина.
Вартість: Запуск Paperbench все ще не дешевий $400 на статтю, а для 20 – $8 000.

Висновок:

Незважаючи на те, що поточні моделі значить, показують досить гарні результати, їм ще є куди рости, щось на зразок. Але все змінюється з неймовірною швидкістю.

Paperbench – це важливий крок у напрямку до AI, який може самостійно покращуватись. І хоча до “інтелектуального вибуху” ще далеко, кожен крок наближає нас до нього.

Сподіваюся, вам було уявіть собі, так само цікаво, як і мені! Якщо сподобалося, ставте лайки та підписуйтесь на оновлення мого блогу, щоб не пропустити нічого нового в світі технологій. До зустрічі!

ШІ-перегони: битва гігантів – GPT 5.2 проти Gemini 3. Хто перемагає у 2024?

Зникнення CEO ШІ: Чи готуємося ми до техно-бунту?

AI 2026: Чи Готові Ми до Ери Цифрових Супергероїв Google?