Штучний інтелект копіює штучний інтелект: Розбираємо Paperbench від OpenAI

    Гей, друзі! Кейсі Байт на зв’язку, і сьогодні ми занурюємося в. Захопливий світ штучного десь так, інтелекту та його здатності до самовідтворення, приблизно так. OpenAI нещодавно випустили статтю про те, як штучний інтелект може відтворювати передові дослідження у сфері AI. Звучить як наукова фантастика та ну, майже. Давайте розберемося з цим докладніше, використовуючи відео з чудовим поясненням.

    Що таке Paperbench?

    Paperbench – це не просто чергова стаття, а справжній бенчмарк, розроблений OpenAI для оцінювання здатності AI-агентів відтворювати (або, як кажуть у відео, “реплікувати”) результати досліджень у сфері машинного навчання. Щоб було ясно, уявіть собі: AI-агенти, які не просто читають папери, а й пишуть код, запускають експерименти та відтворюють результати дослідження.

    Це як якщо б ви віддали завдання улюбленому програмісту, і він міг би відтворити все, що написано в статті, навіть не читаючи її. Зрозуміло,

    Чому це важливо?

    Дослідники вважають, що AI-агенти, здатні автономно копіювати наукові статті. З машинного навчання, можуть значно прискорити прогрес у цій галузі. Уявіть собі, що AI робить більше, ніж просто копіює: він відкриває нові способи покращення себе, запускає нові ітерації та фактично запускає інтелектуальний вибух (як його називає Леопольд Дешер Бренер). Звучить трохи страшно, але ж захопливо, правда?

    Саме тому Paperbench зосереджується на безпечному розвитку можливостей AI.

    Як працює Paperbench?

    Основна ідея полягає в тому, щоб надати AI-агенту:

    .

    • Текст наукової статті: Агент отримує доступ до тексту дослідження.
    • Інструменти: Доступ до інтернету, терміналу Bash, середовища Python.
    • Завдання: Відтворити результати, описані в статті.

    Це наче віддати розгубленому програмісту купу інструментів, папір і попросити його реалізувати концепцію.

    Процес відтворення:

    1. Отримання статті. Агенту дають доступ до тексту дослідження. Більше того,
    2. Написання коду. Агент пише код з нуля, щоб реалізувати експерименти з дослідження.
    3. Запуск експериментів. Насправді, Код виконується але
    4. Оцінка (суддя). Досягнуті результати порівнюються з оригінальною статтею.

    Звучить просто, але на практиці це дуже складно. Експертам-людям потрібні дні, а агенти тепер це роблять за лічені години! Зрозуміло,

    З чого складається Paperbench?

    Набір Paperbench містить 20 недавніх досліджень з машинного навчання, що охоплюють 12 різних тем (взятих з ICML – міжнародної конференції з машинного навчання). Сюди входять такі області, як глибоке навчання з підкріпленням, стійкість та ймовірнісні методи.

    Оцінка (Rubyka):

    Кожна стаття в Paperbench супроводжується власною “рубрикою”, створеною спільно з авторами паперів. Ці рубрики визначають усі необхідні для відтворення результатів вимоги (тобто які результати є потрібними), якось так.
    Рубрика – це як інструкція з оцінювання, написана спільно з авторами наукових робіт.

    Хто найкращий? Більше того, (Результати)

    • Антропоморфний Клод 3. 5 Сонат: Найкраща продуктивність – 21%
    • OpenAI GPT-4 01: 13. Насправді, 2%
    • Інші знаєте, моделі: Результати нижче 10%

    Цікаво, що Gemini 2. 5 Pro з Google, який, на думку автора відео, є найкращим для кодування, не було протестовано.

    Архитектура Paperbench:

    1. Стаття.
    2. Агент: Агент розмірковує, використовує розумієте, інструменти, читає папір, пише початковий код, реалізовує його, пише код для отримання бажаного результату.
    3. reproduce. Зрозуміло, sh: Скрипт для запуску всіх файлів та спроби відтворення результатів. Звичайно,
    4. Суддя (Judge) та оцінка: Перевірка результатів на відповідність вимогам, оцінювання поданого коду, оцінка. Щоб було ясно,
    5. Підсумкове значення. (Final Score)

    По суті, відтворення включає в себе розуміння статті, розробку кодової бази з нуля для реалізації всіх експериментів, їх запуск, моніторинг та усунення несправностей.

    Деталі оцінювання (Розбиваємо оцінку):

    Оцінка відбувається за. Дереваподібною системою, що дозволяє оцінити різні аспекти роботи.
    Замість простої оцінки “успішно/провалено”, система оцінює деталі відтворення.

    1. Pass / Fail (Пройшов / Не пройшов) – загальний результат.
    2. Результати відповідності (Result match) – чи підтверджуються результати, наведених у статті. Безумовно,
    3. Виконання (Execution) – чи успішно виконано код.
    4. Розробка коду (Code development) – відповідність коду завданням.

    Такий підхід нагадує процес винагороди у навчанні, де заохочується навіть частковий успіх – наприклад, якщо код виконує 9 з 10 кроків правильно, агент отримує винагороду за ці 9, а не зазнає повної невдачі.

    Правила роботи Paperbench (Обмеження для агентів):

    • Агностицизм до агента: Paperbench працює з будь-яким агентом та основою.
    • Інтернет, але не авторський код: Агент має доступ до інтернету, але не може просто скачати код автора. Існують “чорні списки” веб-сайтів, де це заборонено. Насправді,
    • Ресурси без обмежень: Немає обмежень на обчислювальні потужності та час.
    • API Keys (Ключі API): Агентам надаються ключі API для необхідних онлайн-сервісів, наприклад, HuggingFace.

    Paperbench Codev:

    Для зниження витрат було створено Paperbench в принципі, Codev, зосереджений лише на розробці коду, а не на виконанні.

    Він:

    • Знижує вартість оцінювання на 85%.
    • Вартість запуску становить близько $400 на один paper. Насправді,
    • Для одного оцінювання (суддя) потрібно $66 (03 Mini Simple Judge).

    Обмеження (Ахіллесова п’ята):

    • Розмір наприклад, набору даних: Paperbench містить лише 20 статей, що може бути недостатньо для оцінки всіх аспектів.
    • Складність рубрик: Кожна рубрика містить сотні вузлів, що показує велику кількість вимог.
    • Забруднення (Contamination): Можливо, деякі моделі могли бути. Навчені на статті, які тестуються (але це малоймовірно).
    • Складність створення набору даних: Створення статей вимагає багато часу та зусиль.
    • Точність судді: Суддя на базі LLM ще не такий точний, як людина.
    • Вартість: Запуск Paperbench все ще не дешевий $400 на статтю, а для 20 – $8 000.

    Висновок:

    Незважаючи на те, що поточні моделі значить, показують досить гарні результати, їм ще є куди рости, щось на зразок. Але все змінюється з неймовірною швидкістю.

    Paperbench – це важливий крок у напрямку до AI, який може самостійно покращуватись. І хоча до “інтелектуального вибуху” ще далеко, кожен крок наближає нас до нього.

    Сподіваюся, вам було уявіть собі, так само цікаво, як і мені! Якщо сподобалося, ставте лайки та підписуйтесь на оновлення мого блогу, щоб не пропустити нічого нового в світі технологій. До зустрічі!

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x