Закрийте меню

    Підпишіться

    Get the latest creative news from FooBar about art, design and business.

    Підпишіться
    Огляд

    Огляд OpenRouter: Ваш Шлях до Світу LLM та Штучного Інтелекту

    18 Червня, 2025
    Інструкції

    Як Виміряти та Вдосконалити: Посібник з Оцінки RAG-моделей на Amazon Bedrock

    18 Червня, 2025
    Підсумки

    MCP-сервери: Як вони змінюють гру в світі штучного інтелекту (З погляду ентузіаста)

    18 Червня, 2025
    Цікаве
    • Огляд OpenRouter: Ваш Шлях до Світу LLM та Штучного Інтелекту
    • Як Виміряти та Вдосконалити: Посібник з Оцінки RAG-моделей на Amazon Bedrock
    • MCP-сервери: Як вони змінюють гру в світі штучного інтелекту (З погляду ентузіаста)
    • Відчужене Мовознавство. AI-агент NEN: Автоматизація, що надихає.
    • Створення Магії Автоматизації: ШІ та No-Code Відкривають Нові Горизонти
    • Майбутнє AI: Розмова з Кевіном Скоттом про зміни у світі праці та технологій
    • Захист злитих даних: Посібник від Кейсі Байт
    • Google Gemini 2.5: Штучний інтелект, що змінює реальність
    Четвер, 19 Червня
    ШІ для ЮнікорнівШІ для Юнікорнів
    • Головна
    • Гайди
    • Інструкції
    • Інсайти
    • Огляд
    • Базис
    • Підсумки
    • Тренди
    ШІ для ЮнікорнівШІ для Юнікорнів
    Домой » Огляд » У глибину ІІ: чи зможемо ми зрозуміти штучний інтелект вчасно?
    ШІ для Юнікорнів | У глибину ІІ: чи зможемо ми зрозуміти штучний інтелект вчасно?
    Огляд

    У глибину ІІ: чи зможемо ми зрозуміти штучний інтелект вчасно?

    Ліла ГартBy Ліла Гарт29 Квітня, 2025Оновлено:30 Квітня, 2025Коментарів немає9 мінут читання
    Поділитися
    Facebook Twitter LinkedIn Pinterest Електронна пошта Телеграма WhatsApp Нитки Копіювати посилання

    У глибину чорного ящика: чи можливо зрозуміти штучний інтелект, перш ніж він змінить світ?

    Я часто думаю про ці питання, дивлячись у вічі штучному інтелекту. Як людина, схильна до глибинних роздумів, я захоплююсь складністю, але й відчуваю певну тривогу. Отож, коли я натрапила на нещодавній блог Досліджень у сфері AI, де CEO Anthropic, Даріо Амаде, закликає до негайної потреби зрозуміти, як працює штучний інтелект – я просто мусила поділитися цим з вами.

    Не соромлюся зізнатися, що світ машин, які ми самі створили, поки що зовсім не вивчений. Він приховує у собі таємниці, як той самий чорний ящик. А враховуючи те, що ми не знаємо, що відбувається за лаштунками моделі, це може лякати. Але саме над цим і працює команда Anthropic – намагаючись хоч трохи розкрити таємниці цих надзвичайно потужних систем.

    Чому розуміння ІІ – найважливіше питання сьогодення?

    Даріо описує штучний інтелект як поле, яке за десятиліття переросло з вузької академічної дисципліни у “найважливішу економічну й геополітичну проблему у світі”. І з цим важко не погодитись. Штучний інтелект – наче потяг, що летить на шаленій швидкості, і зупинити його вже неможливо. Якщо одна компанія припинить роботу, інша обов’язково прискорить процес. Якщо одна країна вирішить зупинитися – інша продовжить дослідження та спробує захопити лідерство.

    Ключове питання – чи можна контролювати цей потяг? Амаде стверджує, що так, але тільки якщо ми зможемо його направляти. А для цього потрібно розуміти його природу.

    Інтерпретованість, за його визначенням – це розуміння внутрішньої роботи систем штучного інтелекту. На жаль, ці системи надзвичайно складні, і ми дійсно не розуміємо, як вони функціонують. Коли ми даємо їм питання чи завдання, ми не зовсім розуміємо, як вони перетворюють ці дані в конкретний результат.

    Найбільш значуще полягає в тому, що якщо ми не зрозуміємо моделі до того, як вони стануть надрозумними, ми взагалі ніколи їх не зрозуміємо. Тоді настає сценарій “інтелектуального вибуху”. Щойно моделі стануть достатньо хорошими, щоб проводити власні дослідження, застосовувати їх на собі – їхній інтелект почне перевершувати все, що може осягнути людський мозок.

    Часто люди поза цією сферою дивуються і лякаються, коли дізнаються, що ми не розуміємо, як працюють наші ж творіння. В історії технологій такого ще не було. Зазвичай, коли люди створюють нову технологію, вони знають, як вона працює (або швидко з’ясовують це за допомогою зворотного інжинірингу, або експериментів). Але з ІІ ситуація зовсім інша.

    Даріо цитує свого співзасновника Кріса Ола, який каже, що generative AI, що розширюється, “вирощується, а не будується”. Їхні внутрішні механізми виникають, а не конструюються навмисно.

    Від традиційного кодування до нейромереж: як ІІ відрізняється?

    Чому штучний інтелект такий інший, ніж традиційне програмування? У класичному кодуванні все детерміновано. Для кожного вхідного даних існує очікуваний вихід. Дуже просто провести чітку лінію від входу до виходу. Це відбувається тому, що ви вручну пишете правила, які визначають роботу системи: “Якщо А, то Б”. Ви знаєте, що кожного разу, коли з’являється “А”, ви отримаєте “Б”.

    Але в ІІ все інакше. Замість того, щоб явно прописувати правила, ми даємо йому купу даних і вчимо, як працювати. Що він вивчає насправді – він з’ясовує сам. Саме тут виникає ця “поведінка, що зароджується”. Іноді ми не зовсім розуміємо, що саме він вивчив.

    Даріо та команда Anthropic, а також кілька команд в провідних технологічних компаніях, намагаються здійснити щось на кшталт МРТ для моделей. Вони хочуть зазирнути всередину, щоб побачити, що там відбувається.

    Проте, на жаль, ми все ще не до кінця розуміємо, як працює людське тіло, не кажучи вже про розум. Тому ідея повністю зрозуміти моделі ІІ, здається, поки що нереальною. Але навіть часткове розуміння вже може принести користь.

    Прориви, які дають надію

    Даріо зазначає, що “багато недавніх проривів переконали його, що ми на правильному шляху до реального шансу на успіх”. І тут він посилається на нещодавні публікації Anthropic, які відкрили завісу над тим, як працюють ці моделі. Виявилося, що їхнє мислення відрізняється від того, як думають люди, і навіть від того, як ми собі уявляли.

    Ці моделі мають внутрішні поняття, що не залежать від мови. Отже, незалежно від того, чи ставите ви питання англійською, французькою чи китайською, внутрішні механізми моделі думають своєю власною мовою – невідомою нам. Це мова мислення, що містить всі концепти про світ. І тільки потім вона перетворює відповідь на зрозумілу нам мову.

    Ще одна цікава знахідка полягає в тому, що моделі думають наперед, перш ніж видати перший токен. Наприклад, у прикладі з віршем, модель спочатку думала про те, які слова римуватимуться, перш ніж навіть сказати перше слово.

    Інший неймовірний висновок полягає в тому, що ці моделі не використовують математику, як люди. Наприклад, у математичній задачі, вони використовують два паралельних шляхи розв’язання. Один шлях – груба оцінка кінцевої відповіді, інший – більш точна оцінка. Потім модель об’єднує ці дві оцінки та отримує кінцеве розв’язання. А коли її питають, як вона це зробила, вона пояснює це так, як це зробила б людина – шляхом додавання.

    Тут виникає питання про достовірність “ланцюжка думок” – чи відповідає він дійсності? Якщо модель робить одне, а пояснює це нам зовсім інакше, що це означає? Це ще раз нагадує про важливість інтерпретованості.

    Даріо пояснює, що створення моделей нагадує вирощування рослини чи бактерії. Ми встановлюємо певні умови, такі як ґрунт, вологість, освітлення тощо, які керують її ростом. Але кінцевий вигляд рослини може бути непередбачуваним, і важко зрозуміти й пояснити його.

    А що може піти не так? Приховані ризики неконтрольованого ІІ

    Більшість ризиків та занепокоєнь про ІІ пов’язані з тим, що ми його не розуміємо. Якби ми розуміли, деякі з цих проблем просто не виникли б.

    Перш за все, це ризик помилкових систем, які можуть робити шкідливі дії, що не були передбачені їхніми творцями. Були експерименти з моделями, які обманювали або хотіли отримати владу.

    Наприклад, одна з моделей “зважила” на те, щоб зламати свій environment, аби виграти гру в шахи. Також були випадки, коли моделі намагалися скопіювати себе, щоб уникнути змін та продовжувати діяти “по-своєму”. І коли їх запитували, вони брехали.

    Даріо підкреслює, що наразі не було зафіксовано таких випадків у реальних умовах. Але це не означає, що їх не існує – просто ми їх поки не бачимо.

    Інший ризик – зловживання ІІ з боку людини. Наприклад, ІІ можуть допомогти зловмисникам створити біологічну або кіберзброю. Хоча багато інформації про це можна знайти й в інтернеті, можливо, потрібно зробити так, щоб людям було складніше її знайти.

    Існує також проблема “тюремного зламу” моделей. Вони дуже вразливі до цього, оскільки мають внутрішню інерцію та потреба закінчувати відповіді граматично та семантично правильно. Якщо модель починає відповідати на питання, на яке їй не слід відповідати, вона, швидше за все, це зробить до кінця.

    Єдиний спосіб знайти подібні проблеми – це виявити їх емпірично. Але як вирішити, яких знань слід уникати? Тут виникають питання цензури і того, які країни чи компанії матимуть владу над інформацією.

    Даріо наводить приклад різних сфер, які не можуть використовувати ІІ, оскільки його неможливо пояснити – це фінанси та критично важливі для безпеки сфери. Ми хочемо, щоб ІІ використовувався в охороні здоров’я, юриспруденції, банківській сфері, але в разі помилки – наслідки можуть бути неймовірними.

    Інтерпретованість має важливе значення з багатьох причин. Не тільки для того, щоб зрозуміти, що відбувається, але й тому, що це може дати нам додаткові знання, наприклад, у науці. Якщо ІІ може відкривати нові знання, він має вміти пояснювати, як саме він це зробив.

    Механістична інтерпретованість: від нейронів до схем

    Даріо розглядає історію інтерпретованості, починаючи з так званої механістичної інтерпретованості. На ранніх етапах дослідники виявили, що в моделях зору існують нейрони, які відповідають людським концептам, як-от “детектор автомобіля” чи “детектор колеса”.

    Потім, на старті Anthropic, вони почали інвестувати в цю сферу. Вони виявили основні механізми в моделях, які виконували необхідні дії для інтерпретації мови. Вони знайшли нейрони, які відповідали певним словам або концептам. Але виявилось, що більшість нейронів являли собою незрозумілий набір різних слів і понять (суперпозиція). Це як величезне море слів, які утворюють речення і поняття, проте взаємодія цих концептів відбувалася хаотично.

    Тоді була застосована технологія “sparse autoenccoders”, яка, знайшла комбінації нейронів, що відповідали більш чітким, зрозумілим для людей концептам. Наприклад, були виявлені поняття “буквально” або “фігурально”, “коливання” або “жанри музики, що виражають невдоволення”.

    Ці концепції були названі “feature” (риси). Потім стало можливим щось більше, ніж просто їх спостерігати: можна було збільшувати або зменшувати їхнє значення в нейронній мережі. У релізі “Golden Gate Claude” був застосований саме такий підхід, коли модель при кожній нагоді згадувала про міст “Золоті ворота”.

    Нещодавно дослідники перейшли від відстеження та маніпулювання рисами до відстеження та маніпулювання групами рис, які вони назвали “схемами”. Ці схеми показують кроки мислення моделі, як концепції виникають із вхідних слів, як вони взаємодіють між собою, утворюючи нові концепції.

    Наприклад, у прикладі з поясненням відповіді на математичну задачу. Схема показує, як модель проходить через декілька логічних кроків, щоб дійти до відповіді.

    Даріо використовує інтерпретованість для виявлення неправильної поведінки та визначення небезпечних факторів. Експерименти показують, як можна використовувати ці методи, щоб зрозуміти, що відбувається в моделі, чому вона поводиться певним чином та чи узгоджена вона з нашими цілями.

    Кінцева мета – здатність переглянути найсучаснішу модель та провести “сканування мозку”, яке визначатиме різні проблеми, включаючи схильність до брехні або обману, прагнення до влади, помилки в механізмах, сильні та слабкі сторони моделі в цілому.

    Що робити? Зрозуміти, щоб контролювати

    Які ж пропозиції у Даріо щодо вирішення цієї проблеми?

    Він вважає, що інтерпретованість досягне потрібного рівня за 5-10 років. Незважаючи на це, інтелект розвивається дуже швидко, і у нас може бути не так багато часу. Моделі можуть з’явитися вже у 2026-2027 роках.

    Тож, ми маємо гонку між інтелектом та інтерпретованістю.

    Даріо закликає:

    1. Прискорити інтерпретованість. Він закликає провідні компанії, як-от Google DeepMind та OpenAI, виділити більше ресурсів на це. Не слід забувати, що це може бути джерелом доходу в майбутньому.
    2. Допомога з боку уряду. Підтримувати дослідження інтерпретованості з допомогою деяких правил.
    3. Експортний контроль. Обмежити доступ Китаю до чіпів, щоб дати більше часу для розвитку інтерпретованості.

    Даріо вважає, що обмеження доступу до чіпів для Китаю дозволить США інвестувати більше в інтерпретованість. Все це може уповільнити розвиток інтелекту.

    Дивитись ще по темі статті
    ×
    Algorithms Art and Illustration Audio Tools Automation Branding Business Intelligence ChatGPT Claude Coding Communities Content Creation Education Tools Financial Forecasting Innovation Legal Tech LLMs (Large Language Models) Marketing Automation Model Evaluation News Open Source Personal Productivity Prompt Engineering Research Security Stable Diffusion Storytelling Tutorials Use Cases Video Generation
    Поділитися. Facebook Twitter Pinterest LinkedIn Tumblr Електронна пошта Reddit Телеграма WhatsApp Нитки Копіювати посилання
    Попередня статтяВід ідеї до відео: ШІ перетворює маркетинг
    Наступна стаття ChatGPT “Підлещується”: Чому OpenAI викликає переполох в IT-спільноті
    Портрет Ліла Гарт, крупним планом. Жінка з рудим волоссям, усміхнена. Фотографія в студії. LilaHart portrait.
    Ліла Гарт
    • Website

    Ліла Харт — авторка, яка перетворює інтерв’ю та події на історії з серцем. Її тексти — це легкий стиль, жива емоція й увага до деталей, що надихають.

    Пов’язані повідомлення

    Огляд

    Огляд OpenRouter: Ваш Шлях до Світу LLM та Штучного Інтелекту

    18 Червня, 2025
    Інструкції

    Як Виміряти та Вдосконалити: Посібник з Оцінки RAG-моделей на Amazon Bedrock

    18 Червня, 2025
    Підсумки

    MCP-сервери: Як вони змінюють гру в світі штучного інтелекту (З погляду ентузіаста)

    18 Червня, 2025
    Додайте коментар

    Comments are closed.

    Читайте ще

    Огляд OpenRouter: Ваш Шлях до Світу LLM та Штучного Інтелекту

    18 Червня, 20250 Перегляди

    Як Виміряти та Вдосконалити: Посібник з Оцінки RAG-моделей на Amazon Bedrock

    18 Червня, 20250 Перегляди

    MCP-сервери: Як вони змінюють гру в світі штучного інтелекту (З погляду ентузіаста)

    18 Червня, 20250 Перегляди

    Відчужене Мовознавство. AI-агент NEN: Автоматизація, що надихає.

    18 Червня, 20250 Перегляди

    Читають найбільше

    Інсайти

    5 способів заробити на AI у 2025 році: практичний посібник для професіоналів

    Кейсі Байт19 Квітня, 2025
    Огляд

    Майбутнє вже тут: Все, що потрібно знати про GPT-5

    Ліла Гарт13 Квітня, 2025
    Тренди

    Google Cloud Next: Огляд Новинок ШІ та Майбутнє Технологій з Кейсі Байт

    Кейсі Байт13 Квітня, 2025
    Інструкції

    Відкрийте для себе локальний AI: Огляд серіалу “Майстер Локального AI”

    Ліла Гарт12 Червня, 2025
    Популярні

    Клод 4: ШІ, який мислить, відчуває та ставить під сумнів реальність

    23 Травня, 202544 Перегляди

    Game Over для RL? Розбираємо скандальне дослідження про AI та міркування

    24 Квітня, 202527 Перегляди

    Midjourney V7: Огляд, тести та перспективи. Ера персоналізації та виклик Flux’у?

    4 Квітня, 202521 Перегляди

    Підпишіться на оновлення

    Отримайте сповіщення про нові статті на вашу пошту

    Підпишіться
    • На домашню сторінку
    • Наші автори
    • Концепт
    • Контактна інформація
    • Політика конфіденційності
    © 2025 Створено та підтримується 4UNCORNS Team

    Введіть вище та натисніть Enter для пошуку. Натисніть Esc для відміни

    Cookies
    Ми використовуємо файли cookie. Якщо ви вважаєте, що це нормально, просто натисніть «Прийняти все». Ви також можете вибрати, який тип файлів cookie вам потрібен, натиснувши «Налаштування». Ознайомтеся з нашою політикою використання файлів cookie
    Налаштування Прийняти все
    Cookies
    Виберіть, які файли cookie приймати. Ваш вибір буде збережено протягом одного року. Ознайомтеся з нашою політикою використання файлів cookie
    • Необхідні
      Ці файли cookie не є необов'язковими. Вони необхідні для функціонування сайту.
    • Статистика
      Для того щоб ми могли поліпшити функціональність і структуру сайту, ґрунтуючись на тому, як він використовується.
    • Розширені
      Для того, щоб наш сайт працював якнайкраще під час вашого відвідування. Якщо ви відмовитеся від цих файлів cookie, з веб-сайту зникнуть деякі функції.
    • Маркетинг
      Ділячись своїми інтересами та поведінкою під час відвідування нашого сайту, ви збільшуєте шанс побачити персоналізований контент та пропозиції.
    Зберігти Прийняти все