Ілюзія Мислення: Чи дійсно Штучний Інтелект думає, чи просто майстерно імітує?
Якось холодним ранком, коли вітер шепотів останнім осіннім листям на вулицях, мені трапилося відео, яке змусило задуматися про саме серце інтелекту. Мене звати Ліла Гарт, і я люблю знаходити сенс у складному, перетворювати наукову мову на людські історії. Цього разу об’єктом моєї уваги став аналіз від Apple, що досліджує глибини розуміння у великих мовних моделях (LLM). Цей аналіз, який швидко став вірусним, ставить під сумнів саме визначення мислення в контексті сучасних досягнень штучного інтелекту.
Він викликав у мене таку бурю емоцій, як чашка міцної кави в холодну погоду, розбуджуючи мозок і змушуючи його вирувати питаннями. Що ж такого особливого в цій роботі, що вона так сильно вражає уяву навіть тих, хто далекий від технічних подробиць?
Apple кидає виклик: Чи дійсно LLM «думають»?
Суть аналізу від Apple, отримала назву “Ілюзія мислення”, полягає в тому, що ми, можливо, переоцінюємо можливості великих моделей міркування (LRM). Це ті самі моделі, про які так багато говорять: OpenAI 03, 04, Deepseek R1, Claude 3.7 і Claude 4.0, які застосовують процес “мислення”, щоб обробляти інформацію. Apple стверджує, що їхні досягнення можуть бути більш поверхневими, ніж здається. Вони акцентують увагу на:
- Забрудненні даних: Деякі моделі, можливо, були навчені на тих самих тестах, які тепер мають проходити. Це, якби ви готувалися до іспиту, вивчаючи лише відповіді на екзаменаційні питання.
- Недостатня узагальнювальна здатність: Справжній розум вміє застосовувати знання в різних ситуаціях. Apple сумнівається, чи роблять це сучасні LRM.
- Упередженість в оцінці: Існуючі критерії оцінювання, зосереджені на точності кінцевої відповіді, можуть приховувати недоліки в процесі міркувань.
Вони припускають, що, замість цього, слід використовувати більш контрольовані умови, як-от: головоломки.
Пазли як ключове питання
Автори статті пропонують використовувати головоломки різної складності для перевірки розуміння. Ці завдання дозволяють контролювати складність і уникати небажаного впливу “забруднення даних” – ситуації, коли модель вже знає відповіді. Приклади включають:
- Вежа з Ханоя: Класична головоломка, де потрібно перемістити диски з одного стержня на інший, дотримуючись певних правил.
- Стрибки через шашки: Гра, де потрібно перестрибувати фішки, щоб прибрати їх зі столу.
- Переправа через річку: Головоломка, у якій персонажі повинні опинитися на протилежному боці, дотримуючись певних обмежень.
- Блокований світ: Гра з блоками, де потрібно їх переміщувати для побудови певної структури.
За допомогою цих головоломок можна регулювати складність. Збільшення кількості дисків у Вежі з Ханоя, або фішок в шашках, ускладнює задачу.
Висновки: Що відкрила Apple?
Використовуючи ці головоломки, Apple зробила декілька цікавих відкриттів:
- Обмеження в узагальненні: LRM не завжди здатні ефективно вирішувати задачі при збільшенні складності.
- Зміна стратегії: Моделі можуть спочатку робити помилки, а потім переглядати і знаходити правильні рішення, в залежності від складності.
- Економія ресурсів: На певній точці, LRM можуть використовувати менше токенів при вирішенні складних завдань, що може вказувати на певні обмеження.
Аналіз підкреслює важливість оцінювання не тільки кінцевого результату, але й процесу мислення, який до нього привів. Важливо розуміти, як моделі досягають рішень, а не просто отримувати правильні відповіді.
Світ LLM: Чи все так просто?
Важливо розглянути ці висновки в контексті ширших тенденцій. Яке місце займає ця робота в гонці інтелекту?
Існуючі способи оцінювання:
- Data Contamination: Поточні критерії оцінювання, такі як Amy 2024 і Amy 2025, можуть страждати від забруднення даних. Тобто, моделі, можливо, були навчені на даних, які використовуються в тестах.
- Inference Token Budgets: Якщо порівняти мислячі та не мислячі моделі з однаковим лімітом токенів, може виявитися, що останні працюють на тому ж рівні.
- Головоломки як альтернатива: Пазли дозволяють керувати складністю та уникнути забруднення.
Цікаво, що в результаті на Amy 2025, люди показала кращі результати, ніж моделі, що, можливо, вказує на меншу складність цього бенчмарку, або на іншу проблему.
Немислячі моделі використовують “Pass at K”, щоб отримати кращий варіант відповіді, що зрівнює можливості з мислячими моделями.
Експерименти та їхній вплив
Автори використовували моделі Claude та Deepseek, щоб дослідити їхню “логіку мислення”. Їхній висновок:
- Проста задача: Обидві моделі працювали приблизно однаково.
- Середня складність: Мислячі моделі показали кращі результати.
- Висока складність: Обидві моделі не змогли впоратися.
Вони зазначили, що моделі змінюють свою стратегію в залежності від складності. Наприклад, у простих задачах, моделі часто знаходять правильну відповідь на ранніх етапах, але продовжують витрачати токени.
Вони з’ясували, що алгоритми, надані в явному вигляді, не покращили продуктивність. Це свідчить про обмеження LLM у верифікації.
Ілія Суцкевер: Шлях до AGI?
Все це відкидає думку про те, що LLM є засобом досягнення загального штучного інтелекту (AGI). Втім, Ілія Суцкевер, співзасновник OpenAI припускає, що AGI не за горами. Він висловлюється на користь цифрового інтелекту, який зможе виконувати всі задачі, які може виконувати людина.
Висновки та перспективи
Втім, Apple підкреслює, що їхні експерименти обмежені в контексті реальних задач, адже вони використовували лише головоломки.
Відеоогляд також звертає увагу на те, що моделі відмінно справляються з кодуванням (створенням коду для вирішення завдань). У результаті, LLM змогла створити гру “Вежа з Ханоя” з можливістю до 20 дисків.
У підсумку, аналіз від Apple ставить важливі питання про майбутнє ШI. Він показує як сильні так і слабкі сторони поточних LRM, вимагаючи більш ретельного вивчення їхніх можливостей і обмежень.
Це дослідження нагадує нам, що шлях до справжнього інтелекту, можливо, пролягає через більш глибоке розуміння наших власних процесів мислення.
Це як подорож у невідоме, де кожен крок відкриває нові горизонти та змушує переосмислювати, що означає «розуміти». І в цій подорожі кожен з нас, як спостерігач, може відкривати для себе нові аспекти інтелекту.