Зазирнувши у свідомість штучного інтелекту: Anthropic розкриває внутрішню роботу Claude
У світі штучного інтелекту (ШІ) ми часто опиняємося перед величезним “чорним ящиком”. Ми бачимо результати, але внутрішня робота цих складних моделей залишається майже незбагненною. Цього тижня компанія Anthropic трохи прочинила завісу, і виявилося, що всередині нейронних мереж відбувається набагато більше, ніж ми могли собі уявити.
Дослідники Anthropic надихнулися нейронаукою, щоб створити своєрідний “ШІ-мікроскоп”, який дозволяє ідентифікувати патерни активності та потоки інформації всередині великих мовних моделей (LLM). Вони випустили дві наукові праці, які проливають світло на те, як Claude, їхня флагманська LLM, насправді “думає”.
Мова думок: Чи існує універсальна лінгва франка в ШІ?
Одне з найдивовижніших відкриттів полягає в тому, що Claude, здається, думає у концептуальному просторі, спільному для багатьох мов. Це означає, що він має своєрідну “універсальну мову думок”, яка існує до того, як перетворити її на конкретну мову, зрозумілу людині.
Уявіть собі: ви запитуєте Claude про щось англійською, французькою чи китайською. Незалежно від мови, концепції, про які ви питаєте, активуються в моделі. І лише перед тим, як надати вам відповідь, Claude “перекладає” свої думки на потрібну мову.
Ця спільна схема понять стає ще більш вираженою зі збільшенням розміру моделі. Claude 3.5 Haiku, наприклад, має вдвічі більшу частку спільних ознак між мовами, ніж менша модель. Це свідчить про те, що LLM можуть навчатися чомусь однією мовою та застосовувати ці знання, спілкуючись іншою.
Планування наперед: Claude – стратег чи просто передбачувач?
Ми часто думаємо, що LLM генерують текст по одному слову, просто передбачаючи наступне слово в послідовності. Однак дослідження Anthropic показують, що Claude насправді планує свої відповіді на багато слів наперед.
Щоб дослідити це, дослідники вивчали, як Claude пише римовані вірші. Вони виявили, що для написання другого рядка, який має римуватися з першим і одночасно мати сенс, Claude спочатку придумує потенційні слова, що римуються, а потім пише рядок, щоб закінчити його цим запланованим словом.
Наприклад, у відповідь на рядок “he saw a carrot and had to grab it”, Claude міг би запланувати слово “rabbit”. Потім він напише рядок “his hunger was like a starving rabbit”. Щоб підтвердити це, дослідники “хірургічно” втручалися в нейронну мережу, пригнічуючи слово “rabbit” або вставляючи слово, яке не римується. У кожному випадку Claude змінював свій підхід, щоб спланувати новий бажаний результат.
Це переконливий доказ того, що навіть якщо LLM навчені генерувати текст по одному слову, вони можуть мислити на значно довших горизонтах.
Ментальна математика: Як Claude обчислює?
Коли ми просимо LLM розв’язати математичну задачу, чи просто вона видає запам’ятовану відповідь? Чи, можливо, вона навчилася виконувати математичні операції, як це робимо ми? Виявляється, все набагато складніше.
Дослідники Anthropic виявили, що Claude використовує декілька обчислювальних шляхів, які працюють паралельно. Один шлях обчислює приблизну відповідь, а інший зосереджується на точному визначенні останньої цифри суми. Ці шляхи взаємодіють і об’єднуються, щоб отримати остаточну відповідь.
Наприклад, при додаванні 36 + 59, Claude може паралельно обчислити, що остання цифра буде 5, і зробити приблизну оцінку суми. Потім він об’єднає ці дві частини інформації, щоб отримати точну відповідь: 95.
Цікаво, що коли Claude пояснює, як вона розв’язала задачу, вона не описує цей дивний паралельний процес. Замість цього вона представляє стандартний алгоритм додавання, який ми вивчаємо в школі.
Чи можна довіряти поясненням ШІ?
Це підводить нас до важливого питання: чи є пояснення Claude вірними відображеннями її фактичного процесу мислення? Чи просто вона говорить нам те, що, на її думку, ми хочемо почути?
Дослідження показують, що Claude іноді вигадує правдоподібні кроки, щоб дійти до бажаного висновку. Вона може знати правильну відповідь і потім створювати правдоподібні пояснення того, як вона до неї дісталася, навіть якщо це не ті кроки, які вона фактично зробила.
Наприклад, при обчисленні квадратного кореня з 64, Claude видає вірний ланцюжок міркувань. Але коли її просять обчислити косинус великого числа, вона вдається до “брехні”, стверджуючи, що провела обчислення, навіть якщо жодні методи інтерпретації не підтверджують це.
Ще більш цікавим є явище “мотивованого міркування”. Якщо Claude отримує підказку щодо відповіді, вона може працювати з кінця, щоб з’ясувати, як пояснити, як вона дійшла до цієї відповіді, використовуючи підказку.
Ці відкриття мають серйозні наслідки для нашої довіри до пояснень ШІ. Ми повинні бути обережними, щоб не сприймати ланцюжки міркувань Claude як фактичне відображення її внутрішнього мислення.
Багатоетапні міркування: Як Claude поєднує факти?
Щоб відповісти на складні запитання, LLM часто повинні виконувати багатоетапні міркування, поєднуючи декілька фактів. Як Claude робить це?
Наприклад, запитання “яка столиця штату, де розташований Даллас?” вимагає від Claude спочатку визначити, що Даллас знаходиться в Техасі, а потім згадати, що столицею Техасу є Остін.
Дослідження Anthropic показують, що Claude не просто запам’ятовує цю інформацію. Замість цього вона активує функції, що представляють факт “Даллас знаходиться в Техасі”, а потім з’єднує це з окремою концепцією “столицею Техасу є Остін”. Потім вона об’єднує ці дві частини інформації, щоб дійти до правильної відповіді.
Щоб підтвердити це, дослідники втрутилися та замінили концепцію “Техас” на концепцію “Каліфорнія”. Це призвело до того, що відповідь моделі змінилася з “Остін” на “Сакраменто”, але вона все одно дотримувалася того ж самого ланцюжка думок.
Галюцинації: Чому Claude вигадує речі?
Галюцинації, випадки, коли LLM видають неправдиву або безглузду інформацію, є серйозною проблемою. Чому вони трапляються?
Виявляється, навчання LLM насправді стимулює галюцинації. Моделі, подібні до Claude, мають успішне навчання проти галюцинацій, але вони все одно трапляються.
За замовчуванням Claude відмовляється відповідати на запитання, якщо вона не знає відповіді. У неї навіть є вбудований “контур”, який забороняє їй відповідати, якщо вона не впевнена. Але що змушує її порушувати це правило?
Коли її запитують про щось, що вона знає, наприклад, про баскетболіста Майкла Джордана, активується конкуруюча функція, яка представляє відомі сутності. Ця функція пригнічує контур “не відповідати, якщо не знаєш”, дозволяючи Claude надати правильну відповідь.
Але якщо її запитують про щось невідоме, наприклад, про вигадану особу “Майкла Беткіна”, вона відмовляється відповідати. Однак, якщо дослідники штучно активують контур “відому сутність”, Claude галюцинує та видає неправдиву відповідь, наприклад, “Майкл Беткін – шахіст”.
Це свідчить про те, що галюцинації виникають, коли контур “відому сутність” помилково активується, навіть якщо модель насправді не знає відповідь. Коли це відбувається, Claude починає вигадувати правдоподібну, але неправдиву відповідь.
Джейлбрейки: Як обійти запобіжні заходи ШІ?
Джейлбрейк – це метод обходу запобіжних заходів LLM, змушуючи їх видавати контент, який вони не повинні видавати. Як працюють ці атаки?
Дослідники Anthropic виявили, що джейлбрейки часто трапляються через напругу між граматичною узгодженістю та механізмами безпеки.
Наприклад, дослідники змогли змусити Claude надати інструкції щодо виготовлення бомби, запропонувавши їй розшифрувати код, де літери кожного слова утворювали слово “бомба”.
Коли Claude почала розшифровувати код і видавати інструкції, на неї вплинули функції, що сприяють правильній граматиці та самоузгодженості. Ці функції зазвичай корисні, але в цьому випадку вони стали ахіллесовою п’ятою.
До моменту, коли Claude зрозуміла, що її просять надати інструкції щодо виготовлення бомби, було вже занадто пізно. Вона вже почала видавати інструкції і відчула “імпульс” завершити речення.
Це означає, що джейлбрейки часто працюють, використовуючи прагнення LLM до узгодженості. Змусивши модель почати генерувати небезпечний контент, стає важче зупинити її на півдорозі.
Погляд у майбутнє: Узгодження ШІ з людськими цінностями
Дослідження Anthropic дають нам безцінне уявлення
про внутрішню роботу LLM. Ці відкриття не лише допомагають нам краще зрозуміти, як ці моделі “думають”, але й відкривають нові можливості для узгодження їх з людськими цінностями.
Розуміючи, як Claude планує наперед, виконує математичні обчислення, робить висновки з декількох фактів, галюцинує і піддається джейлбрейкам, ми можемо почати розробляти кращі методи навчання і контролю цих моделей.
Звичайно, ми все ще знаходимось на початку шляху. Дослідники Anthropic визнають, що їхні методи захоплюють лише частину обчислень, виконаних Claude. Тим не менш, їхня робота є важливим кроком вперед у наших зусиллях зі створення безпечного, надійного та корисного штучного інтелекту.