Чи справді менші мовні моделі можуть бути потужнішими за гігантів? Знайомство з IBM Granite 4.0
Привіт! Мене звати Ліла Гарт, і сьогодні ми поринемо у світ штучного інтелекту, але під іншим кутом. Забудьте про фантастичні космічні кораблі та лабораторії майбутнього. Замість цього поговоримо про те, що може змінити наш спосіб роботи, навчання та спілкування.
У мене особливе ставлення до лінійки LLM від IBM під назвою Granite. Хоча, можливо, ви не зовсім уявляєте, про що йдеться. Звісно, я повинна говорити лише позитивне про моделі свого роботодавця. Але найбільше мене вразила прозорість щодо навчальних даних в одній конкретній моделі – Granite.13B.V2, моделі з 13 мільярдами параметрів, випущеної у 2024 році. Ці дані містили чимало мого “доробку”, наприклад, усі патенти США від USPTO, починаючи з 1975 року. До того ж, модель тренувалася на IBM Docs, зокрема на Redbooks, а писати та редагувати ці “червоні книги” було моєю основною роботою понад десять років. Я навіть досліджувала, хто керував найбільшим проєктом Redbook за всю історію. Виявилося – я! Тож, я відчула себе “побаченою” в Granite.
І ось, IBM випустила нове покоління цих моделей – Granite 4.0. Нові моделі обіцяють кращу продуктивність, швидкість і значно менші експлуатаційні витрати порівняно з попередніми моделями Granite, а також із більшими моделями. Оскільки це технічний канал, я поділюся кількома цікавими деталями щодо архітектури цих моделей, зокрема про поєднання Transformers та Mamba 2. Спочатку коротко розглянемо сімейство малих моделей Granite 4.0.
Маленькі, але потужні: знайомство з сімейством Granite 4.0
Наразі сімейство Granite 4.0 містить кілька моделей.
-
Small. Це, так би мовити, “робоча конячка”. Її розроблено для корпоративних завдань, зокрема для керування багатоінструментальними агентами або обробки складних робочих процесів на одному корпоративному GPU. Це модель архітектури “Суміш експертів” (Mixture-of-Experts, MoE), яка має 32 мільярди параметрів, з яких 9 мільярдів – активні. Про те, що таке активний параметр, розкажу трохи далі.
-
Tiny. Створена для низької затримки, локального використання та на периферії (edge use cases). Як і Small, це також модель Mixture-of-Experts. Вона має 7 мільярдів загальних параметрів і 1 мільярд активних.
-
Micro. Існує дві моделі. Як і Tiny, вони призначені для легких локальних розгортань, але використовують щільну архітектуру з 3 мільярдами параметрів. Одна з них використовує ту ж гібридну архітектуру, що й Tiny та Small, а інша використовує традиційну архітектуру Transformer. Основна ідея – це моделі невеликого розміру, зі швидким інференсом і без потреби у великих обчислювальних ресурсах для роботи.
Ефективність використання пам’яті: де Granite 4.0 показує себе найкраще
Я б хотіла зосередитися на ефективності використання пам’яті, адже саме тут моделі Granite 4.0 справді виділяються. У виробничому навантаженні, якщо мова про довгий контекст і багатобатчеві завдання, модель Micro потребує близько 10 ГБ пам’яті GPU для запуску, тоді як порівнянні моделі потребують у чотири, а то й у шість разів більше. Tiny та Small демонструють схожу перевагу. Гібридний дизайн Granite 4.0 здатний зменшити вимоги до пам’яті до 80%, водночас забезпечуючи вищу продуктивність у багатьох завданнях і працюючи на вищих швидкостях.
Щодо швидкості, то це ще одна перевага. Більшість моделей сповільнюються зі збільшенням розміру пакету (batch size) або довжини контексту, але Granite 4.0 фактично підтримує високу пропускну здатність (throughput), тоді як інші моделі досягають своїх меж.
Продуктивність також має свої переваги. Моделі Granite 4.0 конкурентоспроможні зі своїми аналогами у своїх класах ваги, а також з набагато більшими моделями, особливо на бенчмарках, що вимірюють продуктивність у ключових “агентських” завданнях. Наприклад, модель Small перевершує майже всі відкриті моделі за показниками виконання інструкцій і тримає темп навіть із передовими моделями у викликах функцій. Це саме той баланс швидкості, ефективності та точності, який робить архітектуру Granite 4.0 такою цікавою.
Архітектурний союз: Transformers та Mamba 2
Пориньмо в деталі архітектури. Спочатку поговоримо про Mamba. Трансформери є домінуючою архітектурою в ШІ, вони існують уже тривалий час. Однак у 2023 році дослідники з Карнегі-Меллона та Прінстона представили нову архітектуру під назвою Mamba. Це тип моделі простору станів (state space model, SSM). SSM схожі на рекурентні нейронні мережі (RNN), які домінували в обробці природної мови до появи Transformer-ів. Mamba вирішує обмеження, через які ми відмовилися від RNN. Тепер у нас є Mamba 2 – оптимізована реалізація цієї архітектури Mamba.
У чому ж перевага? Трансформери використовують механізм самостійної уваги (self-attention) для обробки тексту, що неймовірно потужний, але й обчислювально дорогий. Mamba підтримує стислий зміст попереднього контексту, обробляючи кожен новий токен і вибірково вирішуючи, що є достатньо важливим, щоб оновити цей зміст. Це означає, що обчислювальні потреби Mamba зростають лінійно залежно від довжини контексту, тоді як Трансформери масштабуються за квадратичною залежністю.
Простіше кажучи: якщо ви подвоюєте вікно контексту в моделі Transformer, ваші обчислювальні потреби зростають у 4 рази. З Mamba вони зростають лише вдвічі. Це величезний плюс до ефективності, особливо коли ми говоримо про обробку дедалі більших вікон контексту LLM.
Але є нюанс: Трансформери все ще мають деякі переваги. Вони краще справляються з певними завданнями, як-от навчання в контексті (in-context learning) і складне міркування. Тож як це все пов’язано з сімейством Granite 4.0?
Гібридний підхід: Mamba + Transformers + MoE
Архітектура Granite 4.0 є гібридною: вона використовує 9 блоків Mamba на кожен 1 блок Transformer. Mamba виконує основну роботу з захоплення глобального контексту, а блоки Transformer показують свою магію у розборі тонких локальних деталей. Ефективність Mamba поєднується з точністю Transformer-ів.
Друга частина цього гібридного підходу – це Mixture of Experts (MoE), яка використовується для моделей Tiny і Small. Тут з’являються активні параметри, про які я згадувала. MoE розділяє модель на експерти – спеціалізовані нейронні підмережі. Він використовує механізм маршрутизації для активації лише тих експертів, які потрібні для певного завдання.
Моделі Granite 4.0 – це так звані “деталізовані” MoE-моделі (fine-grained MoE models). Отже, пам’ятаєте Tiny? Я казала, що модель Tiny має 7 мільярдів загальних параметрів і 1 мільярд активних. Ось, ця модель Tiny має 62 різних експерти, але для будь-якого токена вона активує лише того експерта, який їй потрібен. Плюс є спільний експерт, який завжди активний. Це досить ефективно. Аналогічно з моделлю Small, що має 32 мільярди загальних параметрів та 9 мільярдів активних. Вона використовує схожу стратегію маршрутизації.
Прощавай, RoPE! Привіт, NoPE!
Останнє архітектурне зауваження. Більшість моделей використовують якусь форму позиційного кодування, як-от RoPE (Rotary Positional Encoding), щоб допомогти моделі зрозуміти порядок слів. Але ці схеми часто мають проблеми з послідовностями, довшими за ті, що вони бачили під час тренування. Granite каже “Ні!” (NoPE) RoPE, буквально, тому що NoPE – це “no positional encoding” (без позиційного кодування). І поки що це не вплинуло на продуктивність з довгим контекстом. Це означає, що без обчислювальних витрат на позиційне кодування та завдяки лінійному масштабуванню Mamba, архітектура моделі Granite 4.0 теоретично має необмежену довжину контексту, тобто ви можете надсилати стільки токенів, скільки дозволяє ваше обладнання та пам’ять.
Цікавий факт: RoPE (Rotary Positional Encoding) – це складний спосіб, яким моделі Transformer “розуміють” порядок слів у реченні. Але, як виявилося, він має свої обмеження, особливо коли мова йде про дуже довгі тексти. ‘NoPE’ від Granite – сміливий крок, який показує, що іноді відмова від складної техніки може призвести до кращої продуктивності.
Два шляхи розвитку ШІ: велетні проти майстрів
Ми бачимо два шляхи розвитку моделей ШІ. З одного боку, це дедалі більші моделі з більшою кількістю параметрів і довшими циклами навчання з підкріпленням від розробників, які женуться за AGI (сильним штучним інтелектом). З іншого – менші моделі, які розширюють межі того, що можуть робити малі моделі, та працюють на GPU, які можна купити в інтернет-магазині за кілька сотень доларів. Це круто, чи не так?
Моделі Granite 4.0 є відкритими (open source), тому перевіряйте їх на Hugging Face або watsonx.ai, якщо хочете побачити, на що здатні малі мовні моделі.
Не робіть те, що я колись робила: намагаючись навчити власну модель виключно на старих “жовтих сторінках” і чекаючи, що вона буде генерувати сучасні тексти. Прозорість даних – ключ до успіху, а правильні дані – це вже пів справи!
Що далі?
Історія Granite 4.0 – не просто про чергові технічні новинки. Вона про те, як інновації можуть прийти звідки, звідки їх найменше чекаєш. Ці моделі доводять, що розмір – не завжди головне, особливо коли йдеться про ефективність, швидкість та доступність.
Тож, якщо ви розробник, дослідник або просто ентузіаст технологій, я б радила звернути увагу на ці моделі. Поекспериментуйте з ними, спробуйте інтегрувати їх у свої проєкти. Хто знає, можливо, саме вони стануть каталізатором, який виведе вашу ідею на новий рівень.
Підсумовуючи, IBM Granite 4.0 – це не просто крок уперед у світі ШІ, а стрибок. Гібридна архітектура, що поєднує Mamba та Transformers, унікальний підхід до параметрів через MoE та відмова від традиційних методів кодування – все це працює разом, щоб створити моделі, які є одночасно потужними, швидкими та економічно вигідними. Вони показують, що майбутнє ШІ може бути не тільки про величні, а й про надзвичайно розумні та ефективні рішення.
А тепер ваша черга! Чи працювали ви з моделями Granite 4.0? Які ваші враження? Або, можливо, ви маєте власні приклади того, як малі, але розумні моделі змогли перевершити своїх гігантських конкурентів? Розкажіть у коментарях! Давайте обговоримо!
До наступних зустрічей, де ми продовжимо розбиратися у захопливому світі технологій!







