Llama 4: Зірка, що згасла? Розчарування та сумніви в новому релізі Meta
Останні вихідні сколихнули AI-спільноту: Meta представила свою нову серію моделей Llama 4. І хоча компанія обіцяла прорив, перші відгуки та незалежні тести змушують замислитись, чи не стала ця спроба фальстартом.
Офіційний анонс Llama 4 вражав: три моделі, серед яких Llama 4 Scout та Llama Maverick, доступні вже зараз. Llama 4 Scout, найменша з них, має 17 мільярдів активних параметрів та 16 експертів (загалом 109 мільярдів). Meta заявляла про “лідерську в індустрії” довжину контексту в 10 мільйонів токенів та оптимізований висновок, що забезпечує швидкість та підтримку неймовірно великого обсягу інформації.
Друга модель, Llama Maverick, теж має 17 мільярдів активних параметрів, але вже 128 експертів, що в сумі дає 400 мільярдів параметрів. Цікаво, що, на відміну від Scout, Maverick позиціонується як мультимодальна модель з контекстом в 1 мільйон токенів. Вже тут виникають перші питання: як дві моделі з однаковою кількістю активних параметрів можуть настільки відрізнятися за загальною кількістю та можливостями контексту?
Третя модель, Llama 4 Behemoth, з 288 мільярдами активних параметрів та 2 трильйонами загальних, анонсована як “найрозумніший вчитель” для дистиляції. Припускається, що Scout та Maverick розроблені на основі Behemoth. Проте, вона поки що недоступна, лише анонс.
Meta підкреслювала, що Llama 4 Scout поміщається на одній відеокарті Nvidia H100 з 80 ГБ VRAM. На жаль, це означає, що навіть найменша модель Llama 4 не працюватиме на звичайних споживчих відеокартах. Це значний крок назад від Llama 3 та інших конкурентів, таких як DeepSeek R1, який я можу запустити на своїй RTX 5090.
Бенчмарки, представлені Meta, мали б закріпити позиції Llama 4 як лідера. Вони демонстрували, що Llama Maverick перевершує GPT-4 Omni, Gemini 2.0 Flash та DeepSeek V3.1 майже за всіма показниками. Проте, в цих порівняннях відсутні топові моделі, такі як 4.5 або 2.5 Pro від Google. Навіть якщо цим бенчмаркам можна вірити, Llama 4 все одно вимагає потужних серверних кластерів для запуску, що суттєво обмежує її доступність.
Окремий акцент робився на можливостях Llama 4 щодо обробки довгого контексту. Meta стверджувала про 100% успішність отримання інформації з контексту в 10 мільйонів токенів для Llama 4 Scout. Результати Llama 4 Maverick були трохи гіршими, що виглядає дещо дивно, враховуючи її більший розмір.
Але найбільші сумніви виникли після перших тестів спільноти. Незважаючи на оптимістичні офіційні бенчмарки, користувачі почали повідомляти про зовсім інші результати.
Спільнота висловлює сумніви
Початковий ентузіазм змінився розчаруванням. Злам моделі для обходу захисних механізмів виявився дуже простим. Але головне – перші “вайб-тести” показали, що з Llama 4 щось не так.
Джиммі Епплс, відомий тестер в AI-спільноті, назвав свої перші враження “meh” (не вражає). Моє опитування в Twitter та YouTube показало подібну картину: більшість респондентів відчули, що Llama 4 не виправдовує очікувань.
Щоб розібратися, я звернувся до незалежних тестів спільноти.
Флавіо провів цікаве порівняння кодування, в якому моделі мали створити симуляцію з реалістичною фізикою. Gemini 2.5 Pro, як очікувалося, впорався з цим завданням найкраще. GPT-40 показав гідний результат, але були певні глюки. Llama 4 Maverick створив хаотичну картину з нереалістичними відскоками, де кульки провалювалися крізь стіни фізичної арени. GPT4 Omni (стара версія) показав ще гірші результати.
Флавіо зазначив, що Llama 4 безкоштовна та з відкритим кодом і майже дорівнює GPT40 (до оновлення). Проте, вона не запускається на домашньому обладнанні, і я можу безкоштовно користуватися GPT4 Omni через ChatGpt. Llama 4 орієнтована на розробників та компанії, але на ринку є й інші open-source моделі, такі як Deepseek R1. OpenAI також планує випустити власну open-source модель, яка, ймовірно, буде не гіршою за GPT40.
Давайте розглянемо тестування написання творів великого обсягу, де дуже важливий великий контекст (Long Context). Gemini 2.5 Pro, як і зазвичай лідирує. Deepseek V3 займає друге місце, а GPT4o тут на третій позиції. Подивимося на Llama for Maverick. Схоже повторення слів в моделі, велике відхилення, що, звичайно, впливає на результат. Ця модель не дуже добре показує себе при великому контексті. Llama for Scout показує себе ще гірше.
Інші тести також підтверджують цю тенденцію. В задачах творчого письма Llama 4 значно відстає від конкурентів, таких як Deepseek R1 та GPT40.
Коломе провів простий тест: попросив різні моделі навести конкретну цитату. Claude 3.5 Haiku впорався з завданням, а Llama 4 Maverick – ні.
Ці результати, в поєднанні з обмеженнями по обладнанню, змусили деяких користувачів назвати Llama 4 “марною тратою”.
Звинувачення в махінаціях та наслідки
Зрештою, ситуація набула зовсім несподіваного повороту. В анонімному пості на Reddit з’явилися заяви про серйозні проблеми в процесі навчання Llama 4.
Автор стверджував, що внутрішня продуктивність моделі не відповідала відкритим бенчмаркам, і що керівництво запропонувало “змішувати набори тестів з різних бенчмарків під час постобробки, щоб відповідати цілям за різними показниками та отримати презентабельний результат”.
Якщо це правда, то всі офіційні бенчмарки Llama 4 стають недійсними. Навчати модель на самих бенчмарках – це обман.
Автор стверджував, що через такий підхід подав у відставку, і що віце-президент Meta AI також звільнився з аналогічних причин.
Якщо Meta дійсно вдалася до подібних махінацій, це завдасть величезної шкоди її репутації. Довіра до Llama 4 буде підірвана. Мета не має гарної репутації. І вони покращили її за допомогою моделей Llama. Llama 1, 2 та 3 були справді вражаючі. Але якщо в Llama 4 вони сфальсифікували бенчмарки, то як їм можна довіряти?
Інші дивні результати
Спільнота продовжує знаходити дивні результати в Llama 4.
Наприклад, в тесті “misguided attention eval” Llama 4 Scout значно перевершила Llama 4 Maverick, що суперечить логіці.
Користувачі припускають, що Scout та Maverick – це зовсім різні лінії моделей. Scout могла бути попередньо навчена окремо, а Maverick – нашвидкуруч створена модель, навчена в останній момент, можливо, на самих бенчмарках. В такому разі, Scout може виявитися кращою моделлю.
Інші тести показують, що заявлений контекст в 10 мільйонів токенів – це фікція. Llama 4 Maverick та Scout провалюються навіть при низьких контекстах в 400-4000 токенів.
Витік інформації двомісячної давнини
Нарешті, сплив старий витік інформації, який може пролити світло на ситуацію.
У цьому витоку стверджувалося, що Deepseek V3 випередив Llama 4 в бенчмарках ще на етапі розробки. Інженери Meta нібито кинулися “розбирати Deepseek та копіювати все, що тільки можна”. Керівництво було занепокоєне високою вартістю Gen AI, особливо в порівнянні з вартістю навчання Deepseek V3. Велика кількість керівників нібито отримувала більшу платню, ніж вартість тренування Deepseek v3. А Deepseek R1, в свою чергу, ще більше налякав Meta.
Мета мала б зосередити всю увагу на розробці. Коли наймають на роботу велику кількість людей, щоб покращити показники – це Doom. Після цього Llama 4 пішла шкереберть.
Зважаючи на розчаровуючі результати Llama 4, ці твердження набувають більшої правдоподібності.
Що далі?
Я щиро сподівався на успіх Llama 4. Попередні моделі були дійсно конкурентоспроможними. Але зараз ситуація виглядає невтішно. Нова Llama 4 навіть не запускається на споживчому обладнанні і, схоже, її бенчмарки були сфальсифіковані, а реальні тести демонструють плачевні результати.
Потрібно, щоб Meta або визнала свої помилки, звільнила винних і почала все спочатку, або спростувала звинувачення та продемонструвала прозорість. Якщо компанія сфальсифікувала результати та обманула суспільство, єдиний вихід для них: очистити компанію від гнилих кадрів.
Поки що, моя увага перемикається на нові open-source релізи від OpenAI та, звісно, на Gemini 2.5 Pro від Google.
Тож поки що Llama 4 відходить на другий план. На жаль, я відчуваю себе розчарованою цим запуском. Але я все ще сподіваюся, що Meta зможе винести уроки з цього досвіду та повернутися сильнішою.