Велика гра параметрів: Розмір має значення в епоху LLM?

Велика гра параметрів: як LLM змінюють поле інтелекту

У світі штучного інтелекту, де кожна нова розробка перевершує попередню, термін “великий” набуває нового значення. Це стосується передусім мовних моделей (LLM), основоположних будівельних блоків сучасних програм. Але що припустимо, насправді означає “великий” у контексті LLM? Такий термін охоплює цілий спектр моделей: від легких мереж, які спокійно поміщаються в наших. Смартфонах, до гігантів, які вимагають цілих стійків потужних графічних процесорів у гіпермасштабних центрах обробки даних.

Розмір LLM вимірюється параметрами. Ці параметри – це окремі ваги чисел з плаваючою. Справа в тому, в принципі, що комою, які нейронна мережа коригує в процесі свого навчання. Разом, ці параметри кодують усе, що модель може згадати або обміркувати. Чим їх більше, тим, теоретично, ширші можливості. Безумовно,

Давайте розглянемо конкретні приклади. Mistral 7B – це невелика модель, де “7B” вказує на приблизно 7 мільярдів параметрів. Для порівняння, Llama 3 від припустимо, Meta – вже велика модель, з 400 мільярдами параметрів. А деякі передові моделі сягають ще більших масштабів, перевищуючи півтрильйона параметрів.

За великим рахунком, додаткові параметри купляють додаткові функціональні можливості. Більші моделі мають більше місця, щоб запам’ятовувати факти. Підтримувати більше мов та виконувати складніші ланцюжки міркувань. Але, безумовно, у всього є своя ціна. Такі моделі вимагають експоненційно більших обчислювальних ресурсів, енергії та пам’яті, як для навчання, так і для подальшого використання. Насправді,

Отже, ситуація не просто “чим більше, тим краще”. Менші моделі наздоганяють і демонструють вражаючі результати. Розглянемо на прикладі тесту MMLU (Massive Multitask Language Understanding): він містить понад. 15 000 питань з різноманітних галузей, таких як математика, історія, право та медицина. Учасник тесту повинен поєднувати фактичні знання з розв’язуванням задач.

Якщо просто вгадувати відповіді, результат буде близько 25%. Звичайна дивіться, людина покаже результат близько 35%. Цікаво, експерт приблизно, у відповідній галузі може набрати до 90%, якось так. Безумовно, а що ж штучний інтелект? Простіше кажучи, коли GPT-3 з’явилася у 2020 році з 175 мільярдами параметрів, вона показала результат 44% на MMLU, щось на зразок. Непогано, але далеко від досконалості.

А як щодо сучасних моделей? Передові моделі можуть досягати 88% і але давайте візьмемо як орієнтир 60%. Саме за цим показником модель можна вважати компетентним. Спеціалістом широкого профілю, здатною відповідати на повсякденні питання. Простіше кажучи,

Варто відзначити, як швидко бар’єр у 60% був подоланий меншими моделями. Насправді, у лютому 2023 року найменшою моделлю, яка набрала. Понад 60%, була Llama 1-65B (65 мільярдів параметрів). Вже через кілька місяців, у липні того ж року, Llama. 2-34B змогла досягти того ж результату, маючи вдвічі менше параметрів. У вересні того ж року з’явився Mistral 7B (7. Мільярдів параметрів), а в березні 2024 року Qwen 1. 5 MOE стала першою моделлю дивіться, з менш. Як 3 мільярдами активних параметрів, яка подолала 60%. Іншими словами, ми постійно вчимося вміщувати компетентну поведінку у все менші обсяги ресурсів.

Отже, менші моделі стають розумнішими. Наступне питання: яку модель варто використовувати, велику чи малу? Це залежить слухайте, від вашого робочого навантаження, вимог до затримки. Конфіденційності та, відверто кажучи, розміру вашого бюджету на графічні процесори.

Деякі задачі виграють від більшого масштабу. Наприклад, широке кодування. Невелика модель може опанувати кілька мов програмування. Але передова модель має простір розумієте, для десятків мовних екосистем та може оперувати у проєктах з кількома файлами, незнайомими API та дивними окремими випадками.

Ще один приклад – робота з великою кількістю документів. Потрібно проаналізувати великий контракт, медичну інструкцію та технічний стандарт. Більша модель з більшим вікном контексту може враховувати більше в принципі, джерел тексту, зменшуючи ймовірність галюцинацій та покращуючи якість цитування. Така ж перевага в масштабі проявляється у високоякісному перекладі з однієї мови на іншу. Додаткові параметри дозволяють мережі створювати набагато багатші підпростори для кожної мови, точніше передаючи ідіоми та нюанси, які менші моделі могли б пропустити.

Але є випадки, коли малі моделі не просто достатньо хороші, а й кращі. Очевидно, наприклад, штучний інтелект на пристроях. Прогнозування клавіатури, голосові команди, офлайновий пошук – усе це залежить від низької затримки (менше 100 мілісекунд) та суворої конфіденційності даних. Фактично, малі моделі, які працюють на самому пристрої, ідеально підходять для цього.

Ще одна чудова галузь – узагальнення. У дослідженні підсумовування новин Mistral 7B instruct демонструвала показники ROGUE та. Bert score, які були статистично не відмінними від більшої моделі GPT 3. 5 turbo. І це дивіться, незважаючи на те, що модель працювала в 30 разів дешевше та швидше.

Ще один чудовий приклад – корпоративні чат-боти. Бізнес може налаштувати припустимо, модель з 7 або 13 мільярдами параметрів на власних інструкціях і досягти майже експертної точності. Дивно, iBM виявила, що сімейство Granite 13B відповідало продуктивності моделей. Які були вп’ятеро знаєте, більшими в типових задачах “питання-відповідь” на підприємствах.

Отже, правило таке: для широких, відкритих міркувань більший розмір все ще може забезпечити більший запас. Для більш цілеспрямованих навичок, таких як узагальнення та класифікація, ретельно навчена невелика модель забезпечує 90% якості за невелику ціну.

Тож, “прагніть до великого” або “залишайтеся маленькими”? Зрештою, саме ваш конкретний випадок визначить рішення. Важливо розуміти, що ця гонка параметрів – це постійний рух до покращення, адаптації та оптимізації. Постійно з’являються нові моделі, нові методи навчання та нові способи застосування. І саме в цій динаміці народжується майбутнє штучного інтелекту.

Docling: Як ваш кіт може допомогти ШІ зрозуміти PDF

Огляд AI-Новин: Від GLM 4.5 до редагування відео – головні події тижня

Від AI-автоматизації до Micro-SaaS: як перетворити послуги на постійний дохід

Велика гра параметрів: Розмір має значення в епоху LLM?

Docling: Як ваш кіт може допомогти ШІ зрозуміти PDF

Огляд AI-Новин: Від GLM 4.5 до редагування відео – головні події тижня

Від AI-автоматизації до Micro-SaaS: як перетворити послуги на постійний дохід

Docling: Як ваш кіт може допомогти ШІ зрозуміти PDF

Огляд AI-Новин: Від GLM 4.5 до редагування відео – головні події тижня

Від AI-автоматизації до Micro-SaaS: як перетворити послуги на постійний дохід

Producer AI: Нова ера музики чи технологічний експеримент?

Розсіяний штучний інтелект: як контекстна інженерія робить AI справді розумним

Perplexity Comet: Ваш новий AI-провідник в інтернеті

Клод 4: ШІ, який мислить, відчуває та ставить під сумнів реальність

Від нуля до майстерності: Подорож у світ автоматизації з N8N

Популярні

Клод 4: ШІ, який мислить, відчуває та ставить під сумнів реальність

Game Over для RL? Розбираємо скандальне дослідження про AI та міркування

Midjourney V7: Огляд, тести та перспективи. Ера персоналізації та виклик Flux’у?

Підпишіться

Велика гра параметрів: Розмір має значення в епоху LLM?

Велика гра параметрів: як LLM змінюють поле інтелекту

Пов’язані повідомлення

Підпишіться на оновлення