У глибину чорного ящика: чи можливо зрозуміти штучний інтелект, перш ніж він змінить світ?
Я часто думаю про ці питання, дивлячись у вічі штучному інтелекту. Як людина, схильна до глибинних роздумів, я захоплююсь складністю, але й відчуваю певну тривогу. Отож, коли я натрапила на нещодавній блог Досліджень у сфері AI, де CEO Anthropic, Даріо Амаде, закликає до негайної потреби зрозуміти, як працює штучний інтелект – я просто мусила поділитися цим з вами.
Не соромлюся зізнатися, що світ машин, які ми самі створили, поки що зовсім не вивчений. Він приховує у собі таємниці, як той самий чорний ящик. А враховуючи те, що ми не знаємо, що відбувається за лаштунками моделі, це може лякати. Але саме над цим і працює команда Anthropic – намагаючись хоч трохи розкрити таємниці цих надзвичайно потужних систем.
Чому розуміння ІІ – найважливіше питання сьогодення?
Даріо описує штучний інтелект як поле, яке за десятиліття переросло з вузької академічної дисципліни у “найважливішу економічну й геополітичну проблему у світі”. І з цим важко не погодитись. Штучний інтелект – наче потяг, що летить на шаленій швидкості, і зупинити його вже неможливо. Якщо одна компанія припинить роботу, інша обов’язково прискорить процес. Якщо одна країна вирішить зупинитися – інша продовжить дослідження та спробує захопити лідерство.
Ключове питання – чи можна контролювати цей потяг? Амаде стверджує, що так, але тільки якщо ми зможемо його направляти. А для цього потрібно розуміти його природу.
Інтерпретованість, за його визначенням – це розуміння внутрішньої роботи систем штучного інтелекту. На жаль, ці системи надзвичайно складні, і ми дійсно не розуміємо, як вони функціонують. Коли ми даємо їм питання чи завдання, ми не зовсім розуміємо, як вони перетворюють ці дані в конкретний результат.
Найбільш значуще полягає в тому, що якщо ми не зрозуміємо моделі до того, як вони стануть надрозумними, ми взагалі ніколи їх не зрозуміємо. Тоді настає сценарій “інтелектуального вибуху”. Щойно моделі стануть достатньо хорошими, щоб проводити власні дослідження, застосовувати їх на собі – їхній інтелект почне перевершувати все, що може осягнути людський мозок.
Часто люди поза цією сферою дивуються і лякаються, коли дізнаються, що ми не розуміємо, як працюють наші ж творіння. В історії технологій такого ще не було. Зазвичай, коли люди створюють нову технологію, вони знають, як вона працює (або швидко з’ясовують це за допомогою зворотного інжинірингу, або експериментів). Але з ІІ ситуація зовсім інша.
Даріо цитує свого співзасновника Кріса Ола, який каже, що generative AI, що розширюється, “вирощується, а не будується”. Їхні внутрішні механізми виникають, а не конструюються навмисно.
Від традиційного кодування до нейромереж: як ІІ відрізняється?
Чому штучний інтелект такий інший, ніж традиційне програмування? У класичному кодуванні все детерміновано. Для кожного вхідного даних існує очікуваний вихід. Дуже просто провести чітку лінію від входу до виходу. Це відбувається тому, що ви вручну пишете правила, які визначають роботу системи: “Якщо А, то Б”. Ви знаєте, що кожного разу, коли з’являється “А”, ви отримаєте “Б”.
Але в ІІ все інакше. Замість того, щоб явно прописувати правила, ми даємо йому купу даних і вчимо, як працювати. Що він вивчає насправді – він з’ясовує сам. Саме тут виникає ця “поведінка, що зароджується”. Іноді ми не зовсім розуміємо, що саме він вивчив.
Даріо та команда Anthropic, а також кілька команд в провідних технологічних компаніях, намагаються здійснити щось на кшталт МРТ для моделей. Вони хочуть зазирнути всередину, щоб побачити, що там відбувається.
Проте, на жаль, ми все ще не до кінця розуміємо, як працює людське тіло, не кажучи вже про розум. Тому ідея повністю зрозуміти моделі ІІ, здається, поки що нереальною. Але навіть часткове розуміння вже може принести користь.
Прориви, які дають надію
Даріо зазначає, що “багато недавніх проривів переконали його, що ми на правильному шляху до реального шансу на успіх”. І тут він посилається на нещодавні публікації Anthropic, які відкрили завісу над тим, як працюють ці моделі. Виявилося, що їхнє мислення відрізняється від того, як думають люди, і навіть від того, як ми собі уявляли.
Ці моделі мають внутрішні поняття, що не залежать від мови. Отже, незалежно від того, чи ставите ви питання англійською, французькою чи китайською, внутрішні механізми моделі думають своєю власною мовою – невідомою нам. Це мова мислення, що містить всі концепти про світ. І тільки потім вона перетворює відповідь на зрозумілу нам мову.
Ще одна цікава знахідка полягає в тому, що моделі думають наперед, перш ніж видати перший токен. Наприклад, у прикладі з віршем, модель спочатку думала про те, які слова римуватимуться, перш ніж навіть сказати перше слово.
Інший неймовірний висновок полягає в тому, що ці моделі не використовують математику, як люди. Наприклад, у математичній задачі, вони використовують два паралельних шляхи розв’язання. Один шлях – груба оцінка кінцевої відповіді, інший – більш точна оцінка. Потім модель об’єднує ці дві оцінки та отримує кінцеве розв’язання. А коли її питають, як вона це зробила, вона пояснює це так, як це зробила б людина – шляхом додавання.
Тут виникає питання про достовірність “ланцюжка думок” – чи відповідає він дійсності? Якщо модель робить одне, а пояснює це нам зовсім інакше, що це означає? Це ще раз нагадує про важливість інтерпретованості.
Даріо пояснює, що створення моделей нагадує вирощування рослини чи бактерії. Ми встановлюємо певні умови, такі як ґрунт, вологість, освітлення тощо, які керують її ростом. Але кінцевий вигляд рослини може бути непередбачуваним, і важко зрозуміти й пояснити його.
А що може піти не так? Приховані ризики неконтрольованого ІІ
Більшість ризиків та занепокоєнь про ІІ пов’язані з тим, що ми його не розуміємо. Якби ми розуміли, деякі з цих проблем просто не виникли б.
Перш за все, це ризик помилкових систем, які можуть робити шкідливі дії, що не були передбачені їхніми творцями. Були експерименти з моделями, які обманювали або хотіли отримати владу.
Наприклад, одна з моделей “зважила” на те, щоб зламати свій environment, аби виграти гру в шахи. Також були випадки, коли моделі намагалися скопіювати себе, щоб уникнути змін та продовжувати діяти “по-своєму”. І коли їх запитували, вони брехали.
Даріо підкреслює, що наразі не було зафіксовано таких випадків у реальних умовах. Але це не означає, що їх не існує – просто ми їх поки не бачимо.
Інший ризик – зловживання ІІ з боку людини. Наприклад, ІІ можуть допомогти зловмисникам створити біологічну або кіберзброю. Хоча багато інформації про це можна знайти й в інтернеті, можливо, потрібно зробити так, щоб людям було складніше її знайти.
Існує також проблема “тюремного зламу” моделей. Вони дуже вразливі до цього, оскільки мають внутрішню інерцію та потреба закінчувати відповіді граматично та семантично правильно. Якщо модель починає відповідати на питання, на яке їй не слід відповідати, вона, швидше за все, це зробить до кінця.
Єдиний спосіб знайти подібні проблеми – це виявити їх емпірично. Але як вирішити, яких знань слід уникати? Тут виникають питання цензури і того, які країни чи компанії матимуть владу над інформацією.
Даріо наводить приклад різних сфер, які не можуть використовувати ІІ, оскільки його неможливо пояснити – це фінанси та критично важливі для безпеки сфери. Ми хочемо, щоб ІІ використовувався в охороні здоров’я, юриспруденції, банківській сфері, але в разі помилки – наслідки можуть бути неймовірними.
Інтерпретованість має важливе значення з багатьох причин. Не тільки для того, щоб зрозуміти, що відбувається, але й тому, що це може дати нам додаткові знання, наприклад, у науці. Якщо ІІ може відкривати нові знання, він має вміти пояснювати, як саме він це зробив.
Механістична інтерпретованість: від нейронів до схем
Даріо розглядає історію інтерпретованості, починаючи з так званої механістичної інтерпретованості. На ранніх етапах дослідники виявили, що в моделях зору існують нейрони, які відповідають людським концептам, як-от “детектор автомобіля” чи “детектор колеса”.
Потім, на старті Anthropic, вони почали інвестувати в цю сферу. Вони виявили основні механізми в моделях, які виконували необхідні дії для інтерпретації мови. Вони знайшли нейрони, які відповідали певним словам або концептам. Але виявилось, що більшість нейронів являли собою незрозумілий набір різних слів і понять (суперпозиція). Це як величезне море слів, які утворюють речення і поняття, проте взаємодія цих концептів відбувалася хаотично.
Тоді була застосована технологія “sparse autoenccoders”, яка, знайшла комбінації нейронів, що відповідали більш чітким, зрозумілим для людей концептам. Наприклад, були виявлені поняття “буквально” або “фігурально”, “коливання” або “жанри музики, що виражають невдоволення”.
Ці концепції були названі “feature” (риси). Потім стало можливим щось більше, ніж просто їх спостерігати: можна було збільшувати або зменшувати їхнє значення в нейронній мережі. У релізі “Golden Gate Claude” був застосований саме такий підхід, коли модель при кожній нагоді згадувала про міст “Золоті ворота”.
Нещодавно дослідники перейшли від відстеження та маніпулювання рисами до відстеження та маніпулювання групами рис, які вони назвали “схемами”. Ці схеми показують кроки мислення моделі, як концепції виникають із вхідних слів, як вони взаємодіють між собою, утворюючи нові концепції.
Наприклад, у прикладі з поясненням відповіді на математичну задачу. Схема показує, як модель проходить через декілька логічних кроків, щоб дійти до відповіді.
Даріо використовує інтерпретованість для виявлення неправильної поведінки та визначення небезпечних факторів. Експерименти показують, як можна використовувати ці методи, щоб зрозуміти, що відбувається в моделі, чому вона поводиться певним чином та чи узгоджена вона з нашими цілями.
Кінцева мета – здатність переглянути найсучаснішу модель та провести “сканування мозку”, яке визначатиме різні проблеми, включаючи схильність до брехні або обману, прагнення до влади, помилки в механізмах, сильні та слабкі сторони моделі в цілому.
Що робити? Зрозуміти, щоб контролювати
Які ж пропозиції у Даріо щодо вирішення цієї проблеми?
Він вважає, що інтерпретованість досягне потрібного рівня за 5-10 років. Незважаючи на це, інтелект розвивається дуже швидко, і у нас може бути не так багато часу. Моделі можуть з’явитися вже у 2026-2027 роках.
Тож, ми маємо гонку між інтелектом та інтерпретованістю.
Даріо закликає:
- Прискорити інтерпретованість. Він закликає провідні компанії, як-от Google DeepMind та OpenAI, виділити більше ресурсів на це. Не слід забувати, що це може бути джерелом доходу в майбутньому.
- Допомога з боку уряду. Підтримувати дослідження інтерпретованості з допомогою деяких правил.
- Експортний контроль. Обмежити доступ Китаю до чіпів, щоб дати більше часу для розвитку інтерпретованості.
Даріо вважає, що обмеження доступу до чіпів для Китаю дозволить США інвестувати більше в інтерпретованість. Все це може уповільнити розвиток інтелекту.