Маленькі гіганти: як 7 мільйонів параметрів перевернули гру ШІ
Ви колись замислювалися над дивовижною здатністю котів розв’язувати, здавалося б, складні завдання? Цей пухнастий хижак може дати фору багатьом сучасним технологіям. Минулого тижня стаття змусила мене замислитись: чи справді “більше – краще” у світі штучного інтелекту? Виявилось, що маленька, але надзвичайно розумна модель ШІ, яка містить всього 7 мільйонів параметрів, обходить значно більших конкурентів у найскладніших тестах на логіку. [Посилання на оригінальну статтю]
Ця “крихітка” вже показала, хто в домі господар, залишивши позаду гігантів, таких як Gemini 2.5 Pro та Deepseek. І все це – завдяки новому, неочікуваному підходу, який збентежив багатьох експертів. Тож, розповідаю цю історію. І не дивуйтеся, якщо побачите новий фон – я облаштовую свій офіс.
Коли “великий” не означає “найкращий”
Чому великі мовні моделі (LLM), які вважаються вершиною технологічного прогресу, іноді пасують перед, здавалося б, простими логічними завданнями?
Справа в їхній роботі. Вони генерують відповіді, передбачаючи наступне слово, використовуючи, так би мовити, поштучний метод (авторегресивний). Уявіть, що ви складаєте пазл, не знаючи, як ляже кожен шматочок до попереднього. Одна помилка – і картинка зруйнована.
Щоб це виправити, інженери вигадали “ланцюжок думок” (Chain of Thought). Це як просити модель “подумати вголос” перед відповіддю, тобто аналізувати варіанти, міркувати, порівнювати. Звучить логічно, але метод має свої недоліки. Він потребує багато ресурсів, якісних даних для навчання та може бути надзвичайно крихким. Якщо “ланцюжок думок” неправильний, кінцева відповідь буде хибною. Ще є “pass at K” – модель генерує кілька варіантів відповіді, а потім обирає найкращий. Але суть проблеми залишається: моделі не мислять по-справжньому, вони лише передбачають наступний токен. Їхній “розум” – це радше майстерно побудований прогноз.
Суть проблеми: не в розмірі, а в підході
На сцену виходить наша маленька героїня – модель TRM (Tiny Recursive Model). Вона не прагне бути “більшою” чи “швидшою”, вона пропонує інший підхід. Розробник, один інженер із Samsung, досягнув вражаючих результатів за допомогою цієї крихітної мережі з 7 мільйонами параметрів.
Щоб краще зрозуміти, розглянемо бенчмарк ARC (Abstraction and Reasoning Corpus). Це “іспит” для ШІ, де потрібно розв’язувати завдання, які вимагають глибокого розуміння та логіки. Gemini 2.5 Pro ледь дотягнув до 4.9% точності, витративши багато обчислювальних ресурсів.
TRM, з її скромними 7 мільйонами параметрів, показала 45% на ARC AGI 1 і 8% на ARC AGI 2. Ці цифри можуть здатися невеликими, але якщо їх порівняти з конкурентами, вони вражають! Це менше 0.01% параметрів від найбільших моделей, але результати вище за багатьох!
“Рекурсія” – це нова магія?
Основна ідея TRM – рекурсивне мислення, повторення певних дій для поліпшення результату. Раніше існувала концепція HRM (Hierarchical Reasoning Models), яка використовувала рекурсію, поєднуючи роботу двох невеликих мереж. TRM взяла цю ідею, але спростила її до невпізнаваності. Замість складних математичних теорій, біологічних аргументів і двох мереж, вона використовує лише одну, надзвичайно маленьку мережу, але застосовує до неї рекурсію багаторазово.
Цікаво знати: Збільшення шарів у мережі (більше двох) погіршує результат через “перенавчання”. Простіший підхід з меншою кількістю шарів, але більшою кількістю рекурсивних циклів, дає кращу генералізацію. Це протилежне до того, що ми звикли думати про масштабування в ШІ: “більше – краще”.
Аналогія з борщем: як це працює на практиці
Уявіть, що ви готуєте ідеальний український борщ. Спочатку ви використовуєте базовий рецепт (перша “думка”). Пробуєте його, розумієте, що не вистачає смаку (більше яблук, менше буряка). Це ваша перша “критика” та “ревізія”. Вносите зміни. Знову пробуєте борщ, оцінюєте його, знову корегуєте. І так до ідеалу.
TRM генерує відповідь, аналізує її, критикує, виправляє й повторює цикл багато разів. Кожен цикл – крок до досконалості. Вона не приховує процес мислення, а навпаки, його використовує та вдосконалює.
ℹ Лайфхак: Якщо модель дає не зовсім правильну відповідь, спробуйте поставити уточнююче запитання або дати додатковий контекст. Можливо, ви просто не дали їй достатньо “ітерацій” для роздумів.
Не вір очам своїм: менше – це більше
Цей підхід руйнує міф, що для розв’язання складних завдань потрібні величезні моделі. Головне – елегантність алгоритму та ефективність процесу. Це як порівнювати потужний, але незграбний трактор з майстерно виготовленими японськими інструментами. Одне масивне, інше – компактне, але саме майстерність дає максимальний результат.
Цей прорив відкриває двері до майбутнього, де потужні моделі ШІ зможуть працювати навіть на вашому смартфоні. Уявіть, що ви розв’язуєте найскладніші головоломки, але ваш телефон не зависає. Це не фантастика, це можливо завдяки таким моделям, як TRM.
Чи є це шлях до AGI?
Чи може цей підхід стати кроком до розробки Штучного Загального Інтелекту (AGI)? Важко сказати, але це відкриває нові горизонти. Можливо, ми знайшли нову “масштабовану” закономірність: не розмір мережі, а глибина рекурсії.
Ця історія – приклад того, як інноваційне мислення та розуміння фундаментальних принципів можуть призвести до революційних відкриттів. Іноді, щоб знайти силу, потрібно шукати її не в масштабі, а в суті.
Підсумовуючи, модель TRM із 7 мільйонами параметрів показує чудові результати на складних логічних завданнях. Її успіх базується на рекурсивному мисленні – процесі, де модель аналізує, критикує та вдосконалює відповіді багаторазово. Цей підхід ефективніший і відкриває шлях до компактних та потужних ШІ-рішень, які можуть працювати на будь-яких пристроях.
Що далі? Глибше дослідження потенціалу рекурсивних моделей. Які ще завдання розв’язуватимуть ці “маленькі гіганти”? Це захопливий час для розвитку ШІ, адже зараз інноваційні ідеї змінюють правила гри.
Заклик до дії: Не бійтеся експериментувати! Спробуйте поставити складне питання своєму чат-боту, дайте йому кілька спроб. Можливо, ви здивуєтеся, наскільки “розумним” він може стати, якщо його правильно “направити”. Пишіть свої думки та спостереження в коментарях.







