Штучний інтелект копіює штучний інтелект: Розбираємо Paperbench від OpenAI
Гей, друзі! Кейсі Байт на зв’язку, і сьогодні ми занурюємося в захопливий світ штучного інтелекту та його здатності до самовідтворення. OpenAI нещодавно випустили статтю про те, як штучний інтелект може відтворювати передові дослідження у сфері AI. Звучить як наукова фантастика? Ну, майже. Давайте розберемося з цим докладніше, використовуючи відео з чудовим поясненням.
Що таке Paperbench?
Paperbench – це не просто чергова стаття, а справжній бенчмарк, розроблений OpenAI для оцінювання здатності AI-агентів відтворювати (або, як кажуть у відео, “реплікувати”) результати досліджень у сфері машинного навчання. Уявіть собі: AI-агенти, які не просто читають папери, а й пишуть код, запускають експерименти та відтворюють результати дослідження.
Це як якщо б ви віддали завдання улюбленому програмісту, і він міг би відтворити все, що написано в статті, навіть не читаючи її.
Чому це важливо?
Дослідники вважають, що AI-агенти, здатні автономно копіювати наукові статті з машинного навчання, можуть значно прискорити прогрес у цій галузі. Уявіть собі, що AI робить більше, ніж просто копіює: він відкриває нові способи покращення себе, запускає нові ітерації та фактично запускає інтелектуальний вибух (як його називає Леопольд Дешер Бренер). Звучить трохи страшно, але ж захопливо, правда?
Саме тому Paperbench зосереджується на безпечному розвитку можливостей AI.
Як працює Paperbench?
Основна ідея полягає в тому, щоб надати AI-агенту:
- Текст наукової статті: Агент отримує доступ до тексту дослідження.
- Інструменти: Доступ до інтернету, терміналу Bash, середовища Python.
- Завдання: Відтворити результати, описані в статті.
Це наче віддати розгубленому програмісту купу інструментів, папір і попросити його реалізувати концепцію.
Процес відтворення:
- Отримання статті. Агенту дають доступ до тексту дослідження.
- Написання коду. Агент пише код з нуля, щоб реалізувати експерименти з дослідження.
- Запуск експериментів. Код виконується.
- Оцінка (суддя). Досягнуті результати порівнюються з оригінальною статтею.
Звучить просто, але на практиці це дуже складно. Експертам-людям потрібні дні, а агенти тепер це роблять за лічені години!
З чого складається Paperbench?
Набір Paperbench містить 20 недавніх досліджень з машинного навчання, що охоплюють 12 різних тем (взятих з ICML – міжнародної конференції з машинного навчання). Сюди входять такі області, як глибоке навчання з підкріпленням, стійкість та ймовірнісні методи.
Оцінка (Rubyka):
Кожна стаття в Paperbench супроводжується власною “рубрикою”, створеною спільно з авторами паперів. Ці рубрики визначають усі необхідні для відтворення результатів вимоги (тобто які результати є потрібними).
Рубрика – це як інструкція з оцінювання, написана спільно з авторами наукових робіт.
Хто найкращий? (Результати)
- Антропоморфний Клод 3.5 Сонат: Найкраща продуктивність – 21%
- OpenAI GPT-4 01: 13.2%
- Інші моделі: Результати нижче 10%
Цікаво, що Gemini 2.5 Pro з Google, який, на думку автора відео, є найкращим для кодування, не було протестовано.
Архитектура Paperbench:
- Стаття.
- Агент: Агент розмірковує, використовує інструменти, читає папір, пише початковий код, реалізовує його, пише код для отримання бажаного результату.
- reproduce.sh: Скрипт для запуску всіх файлів та спроби відтворення результатів.
- Суддя (Judge) та оцінка: Перевірка результатів на відповідність вимогам, оцінювання поданого коду, оцінка.
- Підсумкове значення. (Final Score)
По суті, відтворення включає в себе розуміння статті, розробку кодової бази з нуля для реалізації всіх експериментів, їх запуск, моніторинг та усунення несправностей.
Деталі оцінювання (Розбиваємо оцінку):
Оцінка відбувається за дереваподібною системою, що дозволяє оцінити різні аспекти роботи.
Замість простої оцінки “успішно/провалено”, система оцінює деталі відтворення.
- Pass / Fail (Пройшов / Не пройшов) – загальний результат.
- Результати відповідності (Result match) – чи підтверджуються результати, наведених у статті.
- Виконання (Execution) – чи успішно виконано код.
- Розробка коду (Code development) – відповідність коду завданням.
Такий підхід нагадує процес винагороди у навчанні, де заохочується навіть частковий успіх – наприклад, якщо код виконує 9 з 10 кроків правильно, агент отримує винагороду за ці 9, а не зазнає повної невдачі.
Правила роботи Paperbench (Обмеження для агентів):
- Агностицизм до агента: Paperbench працює з будь-яким агентом та основою.
- Інтернет, але не авторський код: Агент має доступ до інтернету, але не може просто скачати код автора. Існують “чорні списки” веб-сайтів, де це заборонено.
- Ресурси без обмежень: Немає обмежень на обчислювальні потужності та час.
- API Keys (Ключі API): Агентам надаються ключі API для необхідних онлайн-сервісів, наприклад, HuggingFace.
Paperbench Codev:
Для зниження витрат було створено Paperbench Codev, зосереджений лише на розробці коду, а не на виконанні.
Він:
- Знижує вартість оцінювання на 85%.
- Вартість запуску становить близько $400 на один paper.
- Для одного оцінювання (суддя) потрібно $66 (03 Mini Simple Judge).
Обмеження (Ахіллесова п’ята):
- Розмір набору даних: Paperbench містить лише 20 статей, що може бути недостатньо для оцінки всіх аспектів.
- Складність рубрик: Кожна рубрика містить сотні вузлів, що показує велику кількість вимог.
- Забруднення (Contamination): Можливо, деякі моделі могли бути навчені на статті, які тестуються (але це малоймовірно).
- Складність створення набору даних: Створення статей вимагає багато часу та зусиль.
- Точність судді: Суддя на базі LLM ще не такий точний, як людина.
- Вартість: Запуск Paperbench все ще не дешевий $400 на статтю, а для 20 – $8 000.
Висновок:
Незважаючи на те, що поточні моделі показують досить гарні результати, їм ще є куди рости. Але все змінюється з неймовірною швидкістю.
Paperbench – це важливий крок у напрямку до AI, який може самостійно покращуватись. І хоча до “інтелектуального вибуху” ще далеко, кожен крок наближає нас до нього.
Сподіваюся, вам було так само цікаво, як і мені! Якщо сподобалося, ставте лайки та підписуйтесь на оновлення мого блогу, щоб не пропустити нічого нового в світі технологій. До зустрічі!