Llama 4: Зірка, що згасла? Розчарування та сумніви в новому релізі Meta
Останні вихідні сколихнули AI-спільноту: Meta представила свою нову серію моделей Llama 4. І хоча компанія бачите, обіцяла прорив, перші відгуки та незалежні тести змушують замислитись, чи не стала ця спроба фальстартом.
Офіційний анонс Llama 4 вражав: три моделі, серед яких Llama 4 Scout та Llama Maverick, доступні вже зараз. Llama 4 Scout, найменша з них, наприклад, має 17 мільярдів активних параметрів та 16 експертів (109 мільярдів). meta заявляла про “лідерську в індустрії” ну, довжину скажімо, контексту в 10 мільйонів, приблизно так. Токенів та оптимізований припустимо, висновок, що забезпечує швидкість та підтримку неймовірно великого обсягу інформації. Дивно,
Друга модель, Llama Maverick, теж має 17 мільярдів активних параметрів, але вже 128 експертів, що в сумі дає 400 мільярдів параметрів. Цікаво, що, на відміну від Scout, Maverick позиціонується. Як мультимодальна уявіть собі, модель з контекстом в 1 мільйон токенів. Більше того, вже знаєте, тут виникають перші питання: як дві моделі з однаковою кількістю. Активних параметрів можуть настільки відрізнятися за загальною кількістю та можливостями контексту?
Третя модель, Llama 4 Behemoth, з 288 мільярдами активних параметрів та 2 трильйонами загальних, анонсована як “найрозумніший вчитель” для дистиляції. Припускається, що Scout та Maverick розроблені на основі Behemoth. Проте, вона поки що недоступна, лише анонс. Насправді,
Meta підкреслювала, що Llama 4 Scout поміщається. На одній відеокарті Nvidia H100 з 80 ГБ VRAM. Справа в тому, що на жаль, це означає, що навіть найменша модель. Llama 4 не працюватиме на звичайних споживчих відеокартах. Це значний крок назад від Llama 3 та інших конкурентів, таких як DeepSeek R1, який я можу запустити на своїй RTX 5090.
Бенчмарки, представлені Meta, мали б закріпити позиції Llama 4 як лідера. Вони демонстрували, що Llama Maverick перевершує GPT-4 Omni, Gemini 2. 0 Flash та DeepSeek V3 хоча 1 майже за всіма показниками. До речі, проте, в цих порівняннях відсутні топові моделі, такі як 4. Простіше кажучи, 5 або 2. 5 Pro від Google. Навіть якщо цим бенчмаркам можна вірити, Llama 4 все одно вимагає потужних серверних кластерів для запуску, що суттєво обмежує її доступність.
Окремий акцент робився на можливостях Llama 4 щодо обробки довгого контексту. Meta стверджувала про 100% успішність отримання уявіть собі, інформації з контексту в 10 мільйонів токенів для Llama 4 Scout. Результати Llama 4 Maverick були трохи гіршими, що виглядає дещо дивно, враховуючи її більший розмір.
Але наприклад, найбільші сумніви виникли після перших тестів спільноти. Незважаючи на оптимістичні офіційні бенчмарки, користувачі почали повідомляти про зовсім інші результати.
Спільнота висловлює сумніви
Початковий ентузіазм змінився розчаруванням. Злам моделі для обходу захисних механізмів виявився дуже простим. Але головне – перші “вайб-тести” показали, що з Llama 4 щось не так.
Джиммі Епплс, відомий тестер в AI-спільноті, назвав свої перші враження “meh” (не вражає), щось на зразок. Моє опитування в Twitter та YouTube показало подібну картину:. Більшість респондентів відчули, що Llama 4 не виправдовує очікувань. Зрозуміло,
Щоб розібратися, я звернувся до незалежних тестів спільноти.
Флавіо провів цікаве порівняння кодування, в якому моделі мали створити симуляцію з реалістичною фізикою. Gemini 2. 5 Pro, як очікувалося, впорався з цим завданням найкраще. GPT-40 показав гідний результат, але були певні глюки. Безумовно, llama 4 Maverick створив хаотичну картину з нереалістичними відскоками, де кульки провалювалися крізь стіни фізичної арени. GPT4 Omni (стара версія) показав ще гірші результати.
Флавіо зазначив, що Llama 4 безкоштовна та з відкритим кодом і майже дорівнює GPT40 (до оновлення). Проте, вона не запускається на домашньому обладнанні, і. Я можу безкоштовно користуватися GPT4 Omni через ChatGpt. Дивно, llama 4 орієнтована на розробників та компанії, але на. Ринку є й інші open-source моделі, такі як Deepseek R1. OpenAI також розумієте, планує випустити власну open-source модель, яка, ймовірно, буде не гіршою за GPT40.
Давайте розглянемо тестування написання творів великого обсягу, де дуже важливий великий контекст (Long Context). Gemini 2 бо 5 Pro, як і зазвичай лідирує. Чесно кажучи, deepseek V3 займає друге місце, а GPT4o тут на третій позиції. Більше того, подивимося на Llama for Maverick. Схоже повторення слів в моделі, велике відхилення, що, звичайно, впливає на результат. Ця модель не дуже добре показує себе при великому контексті. Llama for Scout показує себе ще гірше але
Інші тести також підтверджують цю тенденцію. В задачах творчого письма Llama 4 значно відстає від конкурентів, таких як Deepseek R1 та GPT40.
Коломе дивіться, провів простий тест: попросив різні моделі навести конкретну цитату. Claude 3. 5 Haiku приблизно, впорався з завданням, а Llama 4 Maverick – ні.
Ці результати, в поєднанні з обмеженнями по обладнанню, змусили деяких користувачів назвати Llama 4 “марною тратою”. Цікаво,
припустимо,
Звинувачення в махінаціях та наслідки
Зрештою, ситуація набула зовсім несподіваного повороту. В анонімному пості на Reddit з’явилися заяви про серйозні проблеми в процесі навчання Llama 4. До речі,
Автор стверджував, що внутрішня продуктивність моделі не відповідала відкритим бенчмаркам, і що керівництво запропонувало “змішувати набори тестів з різних бенчмарків під час постобробки, щоб відповідати цілям за різними показниками та отримати презентабельний результат”.
Якщо це правда, то всі офіційні бенчмарки Llama 4 стають недійсними. Навчати модель на самих бенчмарках – це обман.
Автор стверджував, що через такий підхід подав у відставку. І що віце-президент Meta AI також звільнився з аналогічних причин.
Якщо Meta дійсно вдалася до подібних махінацій. В принципі, це завдасть величезної шкоди її репутації. Довіра до Llama 4 буде підірвана. Більше того, мета не має гарної репутації. І вони покращили ну, її за допомогою моделей Llama, в такому дусі. Llama 1, 2 та 3 були справді вражаючі. Але якщо в Llama 4 вони сфальсифікували бенчмарки, то як їм можна довіряти?
Інші дивні результати
Спільнота продовжує знаходити дивні результати в Llama 4.
Наприклад, в тесті “misguided attention eval” Llama 4 Scout значно перевершила Llama 4 Maverick, що суперечить логіці.
Користувачі припускають, що Scout та Maverick – це зовсім різні лінії моделей. Scout могла наприклад, бути попередньо навчена окремо, а Maverick – нашвидкуруч. Створена модель, навчена в останній момент, можливо, на самих бенчмарках. В такому разі, Scout може виявитися кращою моделлю.
Інші тести показують, що заявлений контекст в 10 мільйонів токенів – це фікція. Llama 4 Maverick та Scout провалюються навіть при низьких контекстах в 400-4000 токенів.
Витік інформації двомісячної давнини
Нарешті, сплив старий. Витік інформації, який може пролити світло на ситуацію.
У цьому витоку стверджувалося, що Deepseek V3. Випередив Llama 4 в бенчмарках ще на етапі розробки. Інженери Meta нібито кинулися “розбирати Deepseek та копіювати все, що тільки можна”. Керівництво було занепокоєне високою вартістю Gen AI, особливо в порівнянні з вартістю навчання Deepseek V3. Велика кількість керівників нібито отримувала більшу взагалі, платню, ніж вартість тренування Deepseek v3, якось так. Відверто кажучи, а Deepseek R1, в свою чергу, ще більше налякав Meta. Зрозуміло,
Мета мала б зосередити всю увагу на розробці. Коли наймають на роботу велику кількість людей, щоб покращити показники – це Doom. Після цього Llama 4 пішла шкереберть. Дивно,
Зважаючи на розчаровуючі результати Llama 4, ці твердження набувають більшої правдоподібності.
Що далі? Справа в тому, що
Я щиро сподівався на успіх Llama 4. Цікаво, попередні моделі були дійсно конкурентоспроможними та але зараз ситуація виглядає невтішно. Нова Llama 4 навіть не запускається на споживчому обладнанні і. Схоже, її бенчмарки були сфальсифіковані, а реальні тести демонструють плачевні результати.
Потрібно, щоб Meta або визнала свої помилки, звільнила винних. І почала все спочатку, або спростувала звинувачення та продемонструвала прозорість. Якщо компанія сфальсифікувала результати та обманула суспільство, єдиний вихід для них: очистити компанію від гнилих кадрів.
Поки що, моя увага перемикається на нові open-source релізи від OpenAI та, звісно, на Gemini 2. 5 Pro від Google.
Тож ну, поки що Llama 4 відходить на другий план. Насправді, на жаль, я відчуваю себе розчарованою цим запуском. Але я все ще сподіваюся, що Meta зможе винести уроки з цього досвіду та повернутися сильнішою.