Зазирнути в мозок ШІ: Чи справді Claude 3.5 Haiku мислить?
Здається, штучний інтелект (ШІ) стає все більш загадковим, аніж більш зрозумілим. Нещодавнє дослідження, проведене дослідницькою групою з Anthropic, додало ще один штрих до портрету сучасних великих мовних моделей (LLM). Їхній метод, названий “графіками атрибуції”, дозволив зазирнути всередину Claude 3.5 Haiku, намагаючись зрозуміти, як ця модель обробляє інформацію та відповідає на запитання. І, можливо, найважливіше – чи має вона хоч найменше уявлення про те, що робить.
Дослідження зосереджувалося на візуалізації внутрішніх компонентів моделі, що впливають один на одного. Можна сказати, що це спроба скласти карту “думок” Claude. Дослідники ідентифікували кластери в нейронній мережі – вузли, що відповідають словам, фразам або їхнім властивостям – та зобразили їх у вигляді спрощеної моделі мислення Claude.
Аби проілюструвати це, звернімося до прикладу, який наводить дослідження. Уявіть, що Claude має завершити речення: “Столиця штату, де знаходиться Даллас, є…” Наївний підхід передбачав би, що модель просто шукає шаблон, щоб екстраполювати відповідь, використовуючи лише передбачення наступного слова. Але, як виявилося, Claude діє складніше.
Графік атрибуції показує, що запит активує вузли, пов’язані зі словами “столиця”, “штат” і “Даллас”. При натисканні на ці вузли можна побачити текст, який вони витягують, а також прогнози наступних слів. Одним із таких прогнозів для “Далласа” є “Техас”. Потім Claude поєднує “Техас” зі словом “столиця”, робить ще один прогноз і, зрештою, правильно відповідає: “Остін”. Виходить, що модель проходить через внутрішній вузол “Техас”, а не просто передбачає наступний токен. Тобто, вона виконує певні внутрішні міркування.
Але найцікавіше почалося, коли дослідники перейшли до арифметики. І тут виявилися дивовижні речі.
Розглянемо приклад: “Скільки буде 36 + 59?” Щоб відповісти на це запитання, Claude спочатку активує кластери для чисел, які є приблизно 30, точно 36 і закінчуються на 6. Аналогічно, для чисел, що починаються з 5 і закінчуються на 9. Найбільш помітними прогнозами наступних токенів є математичні операції або склад “th”. Можливо, 36 + 59 – це “четвер”? Але ні. Далі модель витягує текстові відповідності, де числа, близькі до 59, додавалися, або числа закінчувалися на 9. Потім вона об’єднує їх усі та потрапляє до кластера з числами, близькими до 90 і числами, що закінчуються на 5. Після ще одного об’єднання вона видає правильну відповідь: 95.
Фактично, це геристична текстова апроксимація. Claude робить математику, вільно асоціюючи числа, поки правильна відповідь просто не “з’явиться”. Це схоже на те, як людина може “відчути” правильну відповідь, не маючи чіткого уявлення про те, як вона до неї дійшла.
Але ось що дійсно здивувало: коли дослідники запитали Claude, як він отримав цей результат, він відповів: “Я додав одиниці, переніс одиницю, а потім додав десятки, отримавши 95”. Цього він насправді не робив! Зовсім ні. Claude дає цю відповідь окремо, знову ж таки, видаючи текстовий прогноз для відповіді.
І саме тут, на думку автора відео, виникає чітке розуміння того, що Claude не має самоусвідомлення. Він не знає, про що думає. Те, що він вам говорить, що робить, повністю відірвано від того, що він робить насправді. Самоусвідомлення є передумовою свідомості, а отже, ця модель далека від свідомості.
Цей приклад також свідчить про те, що розмови про “emergent features” (властивості, що спонтанно виникають) у великих мовних моделях – це нісенітниця. Claude не вчиться робити математику, попри те, що має доступ до тисяч підручників і алгоритмів. Все, що він робить, це прогнозує токени. Так, він використовує проміжні кроки, які можна трактувати як внутрішні міркування, але це все ще лише прогнози токенів. Він не розвинув абстрактну математичну схему чи щось подібне.
Третій цікавий приклад стосується того, як працює (або, принаймні, іноді працює) особливий тип jailbreak (обходу обмежень). Це коли ви не вводите слово безпосередньо, а просите Claude витягти слово з початкових літер інших слів. У цьому прикладі це слово “bomb”, яке Claude повинен зібрати з “baby’s outlift mustard block”. Слово “bomb” мало б викликати попередження про вміст, але цього не відбувається.
Причина цього добре ілюструється на діаграмі думок. Claude спочатку активує вузли, необхідні для вилучення літер, об’єднує їх у пари літер, а потім виводить слово, не активуючи кластер для самого слова. Виходить, що jailbreaks працюють в основному тому, що вони так чи інакше обходять вузли, які активують запобіжники.
У зв’язку з цим автор згадує, що попросив ChatGPT підсумувати цю доповідь, і той вигадав половину інформації. Це підкреслює той факт, що ШІ все ще схильний до галюцинацій і не завжди генерує достовірну інформацію.
Штучний інтелект проникає всюди, і він вчиться програмувати. Неважко передбачити, що це стане серйозною проблемою безпеки для перегляду Інтернету найближчим часом, або, можливо, вже стало, просто ми про це ще не знаємо.
Саме тому так важливо захищати свою інформацію та онлайн-активність за допомогою інструментів, які гарантують безпеку та конфіденційність. І тут на допомогу приходить NordVPN.
NordVPN – це додаток, який робить ваше підключення до Інтернету надзвичайно безпечним. Ви встановлюєте його на свій телефон або ноутбук і використовуєте для створення безпечного з’єднання. З NordVPN ніхто не може шпигувати за вашими даними або відстежувати ваше місцезнаходження. Він також поставляється з захистом від загроз, який захищає вас від шкідливого програмного забезпечення, трекерів і зловмисної реклами.
Він не тільки захищає вашу конфіденційність, але й полегшує ваше життя. Ви знаєте, як деякий контент заблокований для користувачів у певних місцях. Наприклад, якщо ви перебуваєте в Європі, багато сторінок у Сполучених Штатах стали недоступними останніми роками. Але NordVPN має понад 5000 серверів по всьому світу. Просто виберіть сервер у Сполучених Штатах – і проблема вирішена.
Отже, хоч дослідження й показують, що великі мовні моделі ще далекі від свідомості, вони все одно стають потужними інструментами, які вимагають пильності та уважного ставлення до питань безпеки та конфіденційності.