Llama 4: Драма штучного інтелекту чи маркетинговий хід?
Нещодавно світ штучного інтелекту сколихнула новина про вихід Llama 4 від Meta. Здавалося б, ще одна потужна мовна модель – що тут дивного? Але цього разу все виявилося не так просто. З’явилися питання щодо оптимізації моделі під конкретний бенчмарк, дивного часу релізу та інших нюансів, які викликали жваву дискусію в AI-спільноті. Давайте розберемось, що ж насправді сталося.
Llama 4: Нове ім’я на арені штучного інтелекту
Meta представила Llama 4 в трьох різних версіях, дві з яких вже доступні: Scout і Maverick. Це великі мовні моделі з відкритим кодом, що вже само по собі є значним досягненням. За попередніми даними, Llama 4 Maverick показала вражаючі результати в рейтингу LM Arena, опинившись одразу за Gemini 2.5 Pro.
Але тут і починаються питання.
LMArena: Гра за власними правилами?
LM Arena – це платформа, де користувачі порівнюють дві різні моделі в сліпому тесті та обирають ту, яка їм більше сподобалась. На основі цих голосів моделі отримують оцінку ELO. Llama 4 Maverick показала тут дуже високий результат, однак, за словами експертів, ця версія була спеціально оптимізована для розмовного стилю. Це означає, що вона надає довші та більш розгорнуті відповіді, що, безумовно, подобається користувачам.
Ось приклад: на запитання “Звідки походить цитата “Die monster! You don’t belong in this world!”?” модель відповідає у дуже емоційному та розлогому стилі, використовуючи смайлики та висловлюючи захоплення. Це створює враження жвавої та цікавої розмови.
Але чи є це чесним?
Оптимізація чи маніпуляція?
Критики стверджують, що створення окремої версії моделі, спеціально натренованої для одного бенчмарку, є свого роду “перетренуванням” або навіть “читерством”. Адже якщо використовувати Llama 4 Maverick на інших, більш об’єктивних бенчмарках, результати будуть не такими вражаючими. Meta, до речі, і не використовувала цю конкретну версію для інших тестів.
Сама Meta визнає, що тестування на LM Arena проводилося з використанням Llama 4 Maverick, оптимізованої для розмовної манери. Тож питання залишається відкритим: чи є це просто маркетинговим ходом, чи все ж таки некоректною практикою?
Навіщо це Meta?
Відповідь очевидна: високий результат на LM Arena привертає увагу, забезпечує більше згадок у пресі та соціальних мережах, що, безумовно, корисно для Meta.
Натан Ламберт, відомий експерт у галузі штучного інтелекту, вважає, що репутація Llama 4 може бути заплямована через існування окремої, не випущеної моделі, яка була “перетренована” для LM Arena. Він підкреслює, що важлива не лише якість моделі, але й комунікація та деталі.
А що з іншими бенчмарками?
На інших бенчмарках, зокрема, на тих, що оцінюють навички кодування, Llama 4 Maverick показує себе не так добре. Наприклад, на Ader Polyglot benchmark вона отримала лише 16%, тоді як Gemini 2.5 Pro – понад 70%. Це ще раз підкреслює, що Llama 4 Maverick була оптимізована для конкретного типу завдань.
Llama 4: Проблемний реліз?
Натан Ламберт назвав реліз Llama 4 одним з найдивніших за всю історію. Ось декілька фактів, які підтверджують це:
- Між виходом основних версій Llama стає все більше часу.
- Розмір моделей Llama 4 значно більший, ніж у попередніх версіях.
- Реліз відбувся в суботу, що не є типовим для великих компаній, які намагаються зробити максимально широкий розголос.
- Відсутні оцінки на багатьох важливих бенчмарках, окрім “needle in a haystack”.
Ламберт також критикує Meta за те, що вони не випустили модель, яку використовували для просування на LM Arena. Він вважає, що це є “ляпасом” для спільноти Meta.
Незалежні оцінки
Незалежні оцінки показують неоднозначні результати. З одного боку, модель показує себе досить добре порівняно з моделями без міркувань. З іншого боку, деякі оцінки є “середніми, поганими та заплутаними”. Проблеми можуть бути пов’язані з хостингом та довгими контекстними вікнами.
Він також зазначає, що в Meta AI є культурні проблеми, зокрема, звільнення голови AI-досліджень за кілька днів до виходу моделі.
Довгий контекст: Чи все так добре, як здається?
Однією з ключових особливостей Llama 4 є підтримка довгого контексту. Однак, тестування на fiction.live показало, що Llama 4 Maverick та Llama 4 Scout демонструють досить погані результати навіть при відносно невеликих розмірах контексту (до 120k). Для порівняння, Gemini 2.5 Pro показує майже ідеальні результати навіть при 120k.
Оптимістичні нотки
Незважаючи на критику, в спільноті залишається оптимізм щодо Llama 4. Ахмад, один з керівників Gen AI в Meta, запевнив, що вони працюють над покращенням якості та стабілізацією реалізацій. За його словами, проблеми, які зараз спостерігаються, пов’язані з тим, що моделі були випущені, “як тільки вони були готові”, і потрібно ще кілька днів, щоб все налагодити. Він також спростував звинувачення в тому, що вони тренували моделі на тестових даних.
Він підкреслив, що Llama 4 є значним кроком вперед, і вони будуть працювати з спільнотою, щоб розкрити її потенціал.
Висновок
Ситуація з Llama 4 є досить складною та неоднозначною. З одного боку, це потужна мовна модель з відкритим кодом, яка має великий потенціал. З іншого боку, є питання щодо оптимізації під конкретний бенчмарк, дивного часу релізу та інших нюансів, які викликають занепокоєння.
Чи є це “драмою” чи просто “маркетинговим ходом”? Час покаже. Але одне можна сказати напевно: Llama 4 привернула увагу спільноти та змусила задуматись про те, як ми оцінюємо та порівнюємо мовні моделі.
Я, як і багато інших, залишаюсь з оптимізмом та вірю, що моделі Llama 4 будуть розвиватися та ставати кращими. Головне – щоб розробники були чесними та прозорими зі спільнотою, а ми, користувачі, були критичними та уважними до деталей.