Claude 3.5 Haiku: Розшифровка розуму ШІ та попередження про безпеку

Зазирнути в мозок ШІ: Чи справді Claude 3. Очевидно, 5 Haiku мислить?

Здається, уявіть собі, штучний інтелект (ШІ) стає все більш загадковим, аніж більш зрозумілим. Нещодавнє дослідження, проведене дослідницькою групою з Anthropic, додало ще один штрих до портрету сучасних великих мовних моделей (LLM). Щоб було ясно, їхній метод, названий “графіками атрибуції”, дозволив зазирнути всередину Claude 3. 5 Haiku, намагаючись зрозуміти, як ця модель обробляє інформацію та відповідає на запитання. До речі, і, можливо, найважливіше – чи має вона хоч найменше уявлення про те, що робить.

Дослідження зосереджувалося на візуалізації внутрішніх компонентів моделі, що впливають один на одного. Простіше кажучи, можна сказати, що це спроба скласти карту “думок” Claude. Дослідники ідентифікували кластери в нейронній мережі – вузли, що відповідають словам, фразам або їхнім властивостям – та зобразили їх у вигляді спрощеної моделі мислення Claude.

Аби проілюструвати це, звернімося до прикладу, який наводить дослідження. Уявіть, що Claude розумієте, має завершити речення: “Столиця штату, де знаходиться Даллас, є. Справа в тому, що ” Наївний підхід передбачав би, що модель просто шукає шаблон, щоб екстраполювати відповідь, використовуючи лише передбачення наступного слова. Ну, але, як виявилося, Claude діє складніше.

Графік атрибуції показує, що запит активує вузли, пов’язані зі словами “столиця”, “штат” і “Даллас”. При натисканні на ці вузли можна побачити текст. Очевидно, який вони витягують, а також прогнози наступних слів. Одним із таких прогнозів для “Далласа” є “Техас”. Потім розумієте, Claude поєднує “Техас” зі словом “столиця”, робить. Ще один прогноз і, зрештою, правильно відповідає: “Остін”. Виходить, що модель проходить через внутрішній знаєте, вузол “Техас”, а не просто передбачає наступний токен, типу того. Тобто, вона виконує певні внутрішні міркування.

наприклад,

Але найцікавіше почалося, коли дослідники перейшли до арифметики. І тут виявилися дивовижні речі.

Розглянемо приклад: “Скільки буде 36 + 59? Фактично, ” Щоб відповісти начебто, на це запитання, Claude спочатку активує кластери для. Чисел, які є приблизно 30, точно 36 і закінчуються на 6. Аналогічно, для чисел, що починаються з 5 і закінчуються на 9. Найбільш помітними прогнозами наступних токенів є математичні операції або склад “th”. Можливо, 36 + 59 – це “четвер” проте але ні. Далі модель витягує текстові слухайте, відповідності, де числа, близькі до 59, додавалися, або числа закінчувалися на 9. Потім вона об’єднує їх усі начебто, та потрапляє до кластера з, приблизно так. Числами, близькими до 90 і числами, що закінчуються на 5. Після ще одного об’єднання вона видає правильну відповідь: 95.

Фактично, це геристична текстова апроксимація. Claude робить математику, вільно асоціюючи числа, поки правильна відповідь просто не “з’явиться”. Це схоже на те, як людина може “відчути” правильну відповідь, не маючи чіткого уявлення про те, як вона до неї дійшла.

Але ось що дійсно здивувало: коли дослідники запитали Claude, як він отримав цей результат, він відповів: “Я додав одиниці, переніс одиницю, а потім додав десятки, отримавши 95”. Цього він насправді не робив і зовсім ні. Claude дає цю відповідь окремо, знову ж таки, видаючи текстовий прогноз для відповіді. Звичайно,

слухайте,

І саме тут, на думку автора відео. Виникає чітке розуміння того, що Claude не має самоусвідомлення. Фактично, він не знає, про що думає. Те, що він вам говорить, що робить, повністю відірвано від того, що він робить насправді. Самоусвідомлення є передумовою свідомості, а отже, ця модель далека від свідомості.

Цей приклад також свідчить про те, що розмови про “emergent. Features” (властивості, що спонтанно бачите, виникають) у великих мовних моделях – це нісенітниця. Claude не вчиться робити математику, попри те, що має доступ до тисяч підручників і алгоритмів. Все, що він робить, це прогнозує токени. Так, він використовує проміжні кроки, які можна трактувати як. Внутрішні міркування, але це все ще лише прогнози токенів. Він не розвинув абстрактну математичну схему чи щось подібне.

Третій цікавий приклад стосується того, як працює. (або, скажімо, уявіть собі, принаймні, іноді працює) особливий тип jailbreak (обходу обмежень). Це коли ви не вводите слово безпосередньо, а просите Claude витягти слово з початкових літер інших слів. У цьому прикладі це слово “bomb”, яке Claude повинен зібрати з “baby’s outlift mustard block”. Слово “bomb” мало б викликати попередження про вміст, але цього не відбувається.

Причина цього добре ілюструється на діаграмі думок. Claude спочатку активує вузли, необхідні для вилучення літер, об’єднує їх у пари літер, а потім виводить слово, не активуючи кластер для самого слова. Зрозуміло, зрозуміло, виходить, що jailbreaks працюють в основному тому, що вони так чи інакше обходять вузли, які активують запобіжники.

У зв’язку з цим автор бачите, згадує, що попросив ChatGPT підсумувати цю доповідь, і той вигадав половину інформації. Це підкреслює той факт, що ШІ все слухайте, ще схильний до галюцинацій і не завжди генерує достовірну інформацію.

Штучний інтелект проникає всюди, і він вчиться програмувати. Неважко передбачити, що це стане серйозною проблемою безпеки для перегляду Інтернету найближчим. Часом, або, можливо, вже стало, просто ми про це ще не знаємо. Дивно,

Саме тому так важливо захищати свою інформацію та онлайн-активність за допомогою інструментів, які гарантують безпеку та конфіденційність. І тут на допомогу приходить NordVPN. Цікаво,

NordVPN – це додаток, який робить ваше підключення до Інтернету надзвичайно безпечним. Ви встановлюєте його на свій телефон або ноутбук і використовуєте для створення безпечного з’єднання. З NordVPN ніхто не може шпигувати за вашими даними або відстежувати ваше місцезнаходження. До речі, він також поставляється з захистом від загроз, який захищає. Більше того, вас від шкідливого програмного забезпечення, трекерів і зловмисної реклами.

Він не тільки бачите, захищає вашу конфіденційність, але й полегшує ваше життя. Ви знаєте, як деякий контент заблокований для користувачів у певних місцях. Наприклад, якщо ви перебуваєте в Європі, багато сторінок у Сполучених Штатах стали недоступними останніми роками. Але NordVPN має понад приблизно, 5000 серверів по всьому світу, приблизно так. Просто виберіть сервер у Сполучених Штатах – і проблема вирішена. Звичайно,

Отже, хоч дослідження й показують, що великі мовні моделі ще далекі від свідомості, вони все одно стають потужними інструментами, які вимагають пильності та уважного ставлення до питань безпеки та конфіденційності.

ШІ-перегони: битва гігантів – GPT 5.2 проти Gemini 3. Хто перемагає у 2024?

Зникнення CEO ШІ: Чи готуємося ми до техно-бунту?

AI 2026: Чи Готові Ми до Ери Цифрових Супергероїв Google?

ШІ-перегони: битва гігантів – GPT 5.2 проти Gemini 3. Хто перемагає у 2024?

Зникнення CEO ШІ: Чи готуємося ми до техно-бунту?

AI 2026: Чи Готові Ми до Ери Цифрових Супергероїв Google?

Популярні

Мистецтво майбутнього: 50 креативних стилів генерації зображень з ChatGPT та Sora

Від нуля до майстерності: Подорож у світ автоматизації з N8N

Клод 4: ШІ, який мислить, відчуває та ставить під сумнів реальність

Підпишіться

Claude 3.5 Haiku: Розшифровка розуму ШІ та попередження про безпеку

Зазирнути в мозок ШІ: Чи справді Claude 3. Очевидно, 5 Haiku мислить?

Пов’язані повідомлення

Підпишіться на оновлення