Ілюзія Мислення: Чи справді штучний інтелект думає, або просто імітує? Роздуми про нову доповідь Apple
Яскраве світло софітів на екрані мого ноутбука, гул натовпу за вікном – конференція розробників Apple вирує, і в серці всього цього – питання: чи дійсно штучний інтелект, той самий, що захоплює світ, розумний, чи просто майстерний імітатор? Нещодавно опублікована доповідь Apple, оприлюднена за кілька днів до головної події, викликала бурхливі обговорення як у AI-спільноті, так і за її межами. Заголовок провокативний: “Ілюзія мислення: розуміння сильних сторін та обмежень моделей міркування через призму складності задач”. Це не просто дослідження, це виклик. Такий сміливий крок, опублікований саме перед конференцією, змусив замислитися: чи то Apple кидає виклик усій індустрії, чи просто прагне зайняти вигідну позицію в цій гонці?
Як людина, яка завжди захоплювалася тим, як технології впливають на наше життя, я не могла залишитися осторонь цієї гарячої теми. Я відчуваю неймовірний інтерес до того, як AI змінює світ. І тепер я прагну, щоб ви відчули атмосферу хвилювання, яке вирувало у світі технологій останніх тижнів.
Що ж саме досліджувала Apple?
Команда Apple, як виявилося, вже давно займається глибоким вивченням внутрішніх механізмів роботи штучного інтелекту. Замість того, щоб просто використовувати загальноприйняті AI-бенчмарки, такі як математичні задачі або тести кодування, вони створили власне середовище для тестування, засноване на головоломках, зокрема, варіантах класичної головоломки “Вежі Ханою”. Цей підхід дозволив точно контролювати складність задач.
Вони почали з надзвичайно простих задач з одним диском і поступово ускладнювали їх до 20 дисків. Ось тут і починається найцікавіше.
Apple виявила три різні зони продуктивності, те, що змушує мене щоразу дивуватись:
- Зона низької складності: Тут звичайні AI-моделі виявилися кращими за так звані “моделі міркування”. Це як гоночний автомобіль, що відстає від звичайної машини в міському трафіку.
- Зона середньої складності: У цій зоні “моделі міркування” дійсно показали себе з кращого боку, перевершуючи стандартні моделі. Тут, здавалося, додаткове “мислення” приносило користь.
- Зона високої складності: І ось тут обидва типи моделей зазнали повного краху. Їх точність знизилася майже до нуля. І справа не в нестачі часу чи обчислювальних потужностях – Apple забезпечила їх достатньо. Моделі просто здалися.
Ще більш захоплюючою виявилася дивна поведінка, яку помітили дослідники. Очікувалося, що чим складнішою буде задача, тим довше “моделі міркування” будуть над нею працювати. Але цього не сталося. Спочатку вони намагалися використати більше зусиль для міркувань, але потім, у певній точці, почали докладати менше. Це як відчуття, що задача надто складна, і замість того, щоб дійсно намагатися її вирішити, вони просто “відмахувалися”.
Ще один цікавий експеримент – Apple дала моделям готові алгоритми для вирішення головоломок, тобто, по суті, покрокову інструкцію. І що? Моделі все одно не впоралися зі складними задачами! Це наштовхує на думку, що вони не займаються логічним міркуванням у тому розумінні, як це роблять люди. Вони, скоріше, є вдосконаленими машинами для розпізнавання шаблонів.
Дослідники виявили, що коли AI-моделі стикаються із задачею, варіації якої вони вже бачили, вони можуть впоратися з нею досить добре, оскільки, по суті, отримують та адаптують заздалегідь підготовлені шаблони рішення. Але коли вони зустрічаються зі справді новими, комплексними проблемами, їх нібито здатність до міркування миттєво зникає.
Дебати в AI-спільноті: чи дійсно AI “думає”?
AI-спільнота розкололася у своїх поглядах на те, що ж означає це дослідження. Дехто стверджує, що Apple довела, що міркування в AI – фікція, інші ж кажуть, що Apple просто не зрозуміла суть. Сперечаються як у спорті, ставлячи ставки на перемогу.
Одна частина стверджує, що це доводить, що галас навколо “моделей міркування” – лише маркетингове шахрайство. Наприклад, у коментарях було зазначено, що ці моделі – скоріше “імовірнісні магнітофони”, ніж справжні мислячі машини.
Інший табір активно виступає проти висновків Apple. Під час конференції я знайшла численні обговорення в колах дослідників.
Дослідження показує, що моделі відстають на завданнях з більш високою композиційною глибиною, водночас добре справляючись з завданнями, що містять меншу глибину.
“Apple стверджує, що моделі не справляються з задачами, які вимагають великої кількості ходів, тоді як простіші задачі даються легко. Але ключова проблема полягає не в тому, що моделі стають дурнішими, а в тому, що вони просто не встигають видати відповідь в рамках ліміту”, – пояснюють критики. Це нагадує ситуацію, коли співак не може закінчити пісню, бо в половині її вимкнули мікрофон.
Не менш важливим було питання, чому LLM справляються з “Вежею Ханою”, але зазнають поразки в простіших задачах? “Вежа Ханою” вимагає великої кількості ходів, але насправді є досить простою. Там просто застосовується рекурсивне правило, і нічого більше. А от задача “Переправа через річку” потребує ретельного планування. Хоча рішення короткі, знайти їх насправді дуже важко. Отож, Apple оцінює складність задачі неправильно. Вона використовує довжину рішення як показник, наскільки важко міркувати, а це абсолютно не те, як працює міркування”, – пояснює автор.
Словом, Apple стверджує, що ці задачі складніші для моделей, бо вони потребують більше ходів. Але, як кажуть критики, це не так – “Ханою” просто довга, а не важка. “Переправа через річку” насправді важка, але ваш показник невірний.
Голос скептиків: Ґері Маркус і боротьба з ілюзіями
Не тільки критики з Twitter поділилися власною точкою зору. Особливо цікава позиція Ґері Маркуса – відомого критика LLM (великих мовних моделей). Він опублікував статтю “Нокаутуючий удар для LLM” в той самий день, коли з’явилася доповідь Apple. Ґері фактично закликає до усвідомлення реальності.
Він зазначає, що Apple у своїй доповіді згадала його давні аргументи про те, що нейронні мережі зазнають невдачі за межами даних, на яких їх навчали. Він кричав про це з 1998 року, коли опублікував статтю, в якій розкритикував ранні нейронні мережі за те, що вони не справлялися з простими математичними завданнями. І ось 2025 рік, і Apple використовує його тактику, щоб знищити багатомільярдні AI-моделі.
“Це було ядром моєї статті 1998 року та центральним для моєї першої наукової статті 1999 року, яка показала, що діти могли перехитрити нейронні мережі”, – зазначає Маркус.
Але найбільше вражає те, що Маркус пов’язує висновки Apple з тим, що вони “екзистенційно лякають” прихильників AGI (загального штучного інтелекту). Він зазначає, що Герб Саймон, один з “хрещених батьків” AI, вирішив головоломку “Ханою” у 1950-х роках. А сучасні LLM захлинаються на восьми дисках, маючи доступ до всіх людських знань. Ось його ключовий висновок: якщо ви не можете використати багатомільярдну AI-систему, щоб вирішити задачу, з якою справляються студенти першого курсу, ваші шанси досягти AGI здаються справді віддаленими.
Ще цікавіше, що Ґері Маркус погоджується з однією з критичних зауважень щодо доповіді Apple, зокрема, з тим фактом, що люди також мають труднощі з складними задачами. Але він також зауважує, що ми винайшли комп’ютери саме для того, щоб справлятися з тим, з чим не можуть впоратися люди. Чому ж ми хочемо отримати AGI, який повторює наші недоліки?
На його думку, справжній інтелект має поєднувати людську креативність з машинною точністю, а не просто імітувати наші обмеження. Він – прихильник нейросимволічного AI.
Що робить його точку зору особливою, так це те, як він пов’язує дослідження Apple із загальною картиною. Його есе 2022 року “Глибоке навчання досягло межі” стало вірусним завдяки його безжальній оцінці:
“LLM нагадують гоночні автомобілі, застряглі на першій передачі. Вражаюче прискорення, але нульова здатність підніматися на пагорби. Незважаючи на деякі покращення, ми не зробили квантового стрибка, на який розраховували люди. Ми не позбулися галюцинацій. Ми не позбулися дурних помилок міркування. Якщо ви повернетеся до моєї статті 2022 року, “Глибоке навчання досягло межі”, я не казав, що взагалі не буде прогресу. Але я сказав, що у нас будуть проблеми з галюцинаціями. У нас будуть проблеми з міркуваннями, з плануванням, поки ми не матимемо іншу архітектуру в якомусь сенсі”.
Але ось справжній поворот: Ґері Маркус повідомив, що він листувався з дослідниками Apple, зокрема з співавтором Імманом Міразадом, який сказав йому: “Ми дали моделям алгоритм рішення, і вони все одно зазнали невдачі. Їх процес не є логічним”. Ця закулісна інформація додає значної ваги твердженням Apple.
У коментарях під постом Маркуса розгорнулася справжня війна. Венчурні капіталісти сперечалися з професорами CS про те, чи це кінець AI-зими 2.0. Маркус також пов’язує це з тим, що Apple оголосила про доповідь на WWDC: він припускає, що Тім Кук грає в 4D-шахи, публікуючи цю доповідь, щоб скоригувати очікування перед оголошенням практичних AI-функцій.
На думку Маркуса, Apple може просто зупинитися на штучному корисному інтелекті, враховуючи невдалі запуски AI від Apple. І він згадує Siri. Це може стати їхнім шансом на “арку відродження”.
Ґері Маркус вже давно критикує LLM, і він представляє зростаючий рух AI-реалістів, які вимагають припинити перебільшувати можливості систем, які можуть писати, але не справляються з базовою логікою. На його думку, ми все ще далекі від практичного AI, про який мріємо.
“Ми повинні бути реалістичнішими щодо того, що AI може, а що не може. Ці моделі – неймовірно потужні інструменти, але вони не магія”, – підкреслює Маркус.
Він також наполягає на нейросимволічному підході, поєднуючи LLM зі старою школою AI, з такими елементами, як явні знання та формальні міркування.
Висновки: чи буде перегляд поглядів у майбутньому ШІ?
Насамперед, час публікації цього дослідження багато говорить про стратегію Apple напередодні конференції розробників. У той час, коли всі поспішають створити більші та складніші системи, Apple, по суті, каже: “Зачекайте, можливо, ми пішли не тим шляхом”. Я думаю, що насправді Apple намагається позиціонувати себе по-іншому в перегонах AI. Замість того, щоб намагатися побудувати найвражаючішу модель міркування, вони зосереджуються на практичному AI, який дійсно працює для реальних користувачів.
Це дослідження також показує важливий момент щодо поточного стану розробки AI, коли всі роблять гучні заяви про AI-можливості, яких ще немає. Ця доповідь Apple – це як перевірка реальності, яка змушує індустрію бути трохи чеснішою щодо своїх поточних обмежень.
Що мене найбільше зацікавлює, так це те, що це дослідження може прискорити розвиток AI, а не уповільнити його. Тепер, коли у нас є чіткіше уявлення про те, де нинішні моделі зазнають невдачі, дослідники зможуть зосередитися на вирішенні цих конкретних проблем. Це як мати детальну карту з позначками, де закінчується дорога, що полегшує побудову наступної ділянки.
Для Apple це дослідження надає можливість обрати інший підхід до AI. Замість того, щоб намагатися конкурувати за здатністю до міркування, вони можуть зосередитися на створенні AI, який буде більш надійним, ефективним і практичним для повсякденних завдань. Це насправді грає на сильних сторонах Apple. Вони завжди вміли робити технології зручними для користувачів, а не технічно вражаючими.
Мене здивувало, що це дослідження може вплинути і на те, як інші компанії розробляють AI. Якщо Apple має рацію, що поточні моделі міркування досягли фундаментальних меж масштабування, тоді компаніям, таким як OpenAI і Google, можливо, доведеться повністю переосмислити свій підхід.
Ми бачимо, що деякі з найталановитіших AI-дослідників уже дотримуються такого підходу.
Загалом, це лише початок захоплюючої дискусії. Я збираюся слідкувати за розвитком подій. Я сподіваюся, що ви, дорогі читачі, так само зацікавлені у штучному інтелекті, як і я.
І це лише початок захоплюючого шляху. Коли я завершую писати ці рядки, згадую слова Ліни Кана – “Ми не знаємо, що буде в майбутньому, але ШІ, безумовно, буде там”.