Велика гра параметрів: як LLM змінюють поле інтелекту
У світі штучного інтелекту, де кожна нова розробка перевершує попередню, термін “великий” набуває нового значення. Це стосується передусім мовних моделей (LLM), основоположних будівельних блоків сучасних програм. Але що насправді означає “великий” у контексті LLM? Такий термін охоплює цілий спектр моделей: від легких мереж, які спокійно поміщаються в наших смартфонах, до гігантів, які вимагають цілих стійків потужних графічних процесорів у гіпермасштабних центрах обробки даних.
Розмір LLM вимірюється параметрами. Ці параметри – це окремі ваги чисел з плаваючою комою, які нейронна мережа коригує в процесі свого навчання. Разом, ці параметри кодують усе, що модель може згадати або обміркувати. Чим їх більше, тим, теоретично, ширші можливості.
Давайте розглянемо конкретні приклади. Mistral 7B – це невелика модель, де “7B” вказує на приблизно 7 мільярдів параметрів. Для порівняння, Llama 3 від Meta – вже велика модель, з 400 мільярдами параметрів. А деякі передові моделі сягають ще більших масштабів, перевищуючи півтрильйона параметрів.
За великим рахунком, додаткові параметри купляють додаткові функціональні можливості. Більші моделі мають більше місця, щоб запам’ятовувати факти, підтримувати більше мов та виконувати складніші ланцюжки міркувань. Але, безумовно, у всього є своя ціна. Такі моделі вимагають експоненційно більших обчислювальних ресурсів, енергії та пам’яті, як для навчання, так і для подальшого використання.
Отже, ситуація не просто “чим більше, тим краще”. Менші моделі наздоганяють і демонструють вражаючі результати. Розглянемо на прикладі тесту MMLU (Massive Multitask Language Understanding): він містить понад 15 000 питань з різноманітних галузей, таких як математика, історія, право та медицина. Учасник тесту повинен поєднувати фактичні знання з розв’язуванням задач.
Якщо просто вгадувати відповіді, результат буде близько 25%. Звичайна людина покаже результат близько 35%. Експерт у відповідній галузі може набрати до 90%. А що ж штучний інтелект? Коли GPT-3 з’явилася у 2020 році з 175 мільярдами параметрів, вона показала результат 44% на MMLU. Непогано, але далеко від досконалості.
А як щодо сучасних моделей? Передові моделі можуть досягати 88%. Але давайте візьмемо як орієнтир 60%. Саме за цим показником модель можна вважати компетентним спеціалістом широкого профілю, здатною відповідати на повсякденні питання.
Варто відзначити, як швидко бар’єр у 60% був подоланий меншими моделями. У лютому 2023 року найменшою моделлю, яка набрала понад 60%, була Llama 1-65B (65 мільярдів параметрів). Вже через кілька місяців, у липні того ж року, Llama 2-34B змогла досягти того ж результату, маючи вдвічі менше параметрів. У вересні того ж року з’явився Mistral 7B (7 мільярдів параметрів), а в березні 2024 року Qwen 1.5 MOE стала першою моделлю з менш як 3 мільярдами активних параметрів, яка подолала 60%. Іншими словами, ми постійно вчимося вміщувати компетентну поведінку у все менші обсяги ресурсів.
Отже, менші моделі стають розумнішими. Наступне питання: яку модель варто використовувати, велику чи малу? Це залежить від вашого робочого навантаження, вимог до затримки, конфіденційності та, відверто кажучи, розміру вашого бюджету на графічні процесори.
Деякі задачі виграють від більшого масштабу. Наприклад, широке кодування. Невелика модель може опанувати кілька мов програмування. Але передова модель має простір для десятків мовних екосистем та може оперувати у проєктах з кількома файлами, незнайомими API та дивними окремими випадками.
Ще один приклад – робота з великою кількістю документів. Потрібно проаналізувати великий контракт, медичну інструкцію та технічний стандарт. Більша модель з більшим вікном контексту може враховувати більше джерел тексту, зменшуючи ймовірність галюцинацій та покращуючи якість цитування. Така ж перевага в масштабі проявляється у високоякісному перекладі з однієї мови на іншу. Додаткові параметри дозволяють мережі створювати набагато багатші підпростори для кожної мови, точніше передаючи ідіоми та нюанси, які менші моделі могли б пропустити.
Але є випадки, коли малі моделі не просто достатньо хороші, а й кращі. Наприклад, штучний інтелект на пристроях. Прогнозування клавіатури, голосові команди, офлайновий пошук – усе це залежить від низької затримки (менше 100 мілісекунд) та суворої конфіденційності даних. Малі моделі, які працюють на самому пристрої, ідеально підходять для цього.
Ще одна чудова галузь – узагальнення. У дослідженні підсумовування новин Mistral 7B instruct демонструвала показники ROGUE та Bert score, які були статистично не відмінними від більшої моделі GPT 3.5 turbo. І це незважаючи на те, що модель працювала в 30 разів дешевше та швидше.
Ще один чудовий приклад – корпоративні чат-боти. Бізнес може налаштувати модель з 7 або 13 мільярдами параметрів на власних інструкціях і досягти майже експертної точності. IBM виявила, що сімейство Granite 13B відповідало продуктивності моделей, які були вп’ятеро більшими в типових задачах “питання-відповідь” на підприємствах.
Отже, правило таке: для широких, відкритих міркувань більший розмір все ще може забезпечити більший запас. Для більш цілеспрямованих навичок, таких як узагальнення та класифікація, ретельно навчена невелика модель забезпечує 90% якості за невелику ціну.
Тож, “прагніть до великого” або “залишайтеся маленькими”? Зрештою, саме ваш конкретний випадок визначить рішення. Важливо розуміти, що ця гонка параметрів – це постійний рух до покращення, адаптації та оптимізації. Постійно з’являються нові моделі, нові методи навчання та нові способи застосування. І саме в цій динаміці народжується майбутнє штучного інтелекту.