AGI Неможливе з LLM? Розбираємо Відмову Янна Лекуна від “Мрії” (І Переходимо до Світових Моделей)
Привіт, народ! Кейсі Байт на зв’язку, і сьогодні ми занурюємось у глибини іскрової боротьби в світі ШІ. Ми будемо говорити про те, що сам Янн Лекун, хрещений батько ШІ-досліджень, заявив на GTC 2023: він більше не зацікавлений в LLM. Так, ви правильно почули! Схоже, що легенда ШІ вважає, що поточні моделі великої мови (LLM) – це вже минуле. Давайте розберемося, чому, і куди він дивиться далі.
Хто такий Янн Лекун (і чому його слова важливі)?
Перш ніж ми почнемо, короткий лікнеп для тих, хто не в темі:
- Янн Лекун – це один з “хрещених батьків” сучасної ШІ. Він стоїть за багатьма основоположними дослідженнями глибокого навчання, зокрема, згорткових нейронних мереж (CNN), які живлять комп’ютерний зір та інші передові технології. (CNN – це як мозок для розпізнавання зображень).
- Nvidia GTC (GPU Technology Conference) – це одна з найбільших та найвпливовіших конференцій у світі ШІ, де презентують новітні розробки та діляться думками лідери галузі, як Лекун.
- Чому це важливо? Коли Лекун говорить, щось змінюється. Він витратив десятиліття на вивчення ШІ і його погляди впливають на багатьох.
LLM: Хайп, але не Всесвіт?
Отже, Лекун вважає, що LLM, незважаючи на всю шуміху, не є ключем до загального штучного інтелекту (AGI). Це може бути сумним для деяких з вас, але давайте подивимося, чому.
На його думку, LLM – це, в основному, оптимізація на полях. Вони стають кращими в тому, що роблять, наприклад, генерують текст, але не відповідають на більш цікаві питання.
Чотири основні напрями (від Лекуна)
Лекун виділяє чотири ключові області, які, на його думку, є набагато цікавішими та важливішими:
- Розуміння фізичного світу: Як змусити машини “бачити”, “чути” та взаємодіяти з фізичним світом так, як це роблять люди.
- Постійна пам’ять: Створення ШІ-систем, які можуть зберігати та використовувати інформацію з часом, подібно пам’яті людини.
- Міркування: Здатність ШІ-систем логічно обробляти інформацію та приймати обґрунтовані рішення. Для Лекуна, міркування в LLM – це надто спрощене.
- Планування: Здатність ШІ-систем передбачати майбутнє та розробляти стратегії досягнення цілей.
Світові Моделі: Перехід до Нового Рівня
Ось де все стає дійсно цікавим:
- Що таке світова модель? Це внутрішня “карта” світу, що дозволяє нам розуміти, як все працює, передбачати наслідки наших дій та приймати обґрунтовані рішення. Коли ви тягнете пляшку з верхньої частини, ви знаєте, що вона може перекинутись, а коли з нижньої – вона просто посунеться. Це робота вашої світової моделі.
- Чому це важливо? LLM зосереджуються на обробці тексту (токенів). Світові моделі прагнуть охопити всю різноманітність реального світу – від об’єктів до фізичних законів.
- Проблема токенів:
- Токени – це дискретні елементи. LLM працюють, прогнозуючи наступний токен у послідовності.
- Реальний світ – безперервний та складний.
- Важко передбачити кожну деталь (піксель) у відео, як це намагаються зробити деякі моделі.
- Такі спроби неефективні та витрачають ресурси.
VJEPA: Архітектура Майбутнього?
Лекун та його колеги працюють над рішенням, яке він називає VJEPA (Joint Embedding Predictive Architectures). Ось суть:
- VJEPA – це не генеративна модель (не намагається відтворити кожний піксель).
- Вона навчається, передбачаючи пропущені частини відео на абстрактному рівні.
- Вміє відкидати нерелевантну інформацію.
- Аналізує відео в абстрактному представленні, а не на рівні окремих пікселів.
- Може визначити, чи є відео фізично реалістичним.
Основна ідея: Навчання на представленнях замість пікселів. Це дозволяє моделі зосереджуватися на сутності речей, а не на їхніх дрібних деталях.
Система 1 проти Системи 2: Подвійний Мозок ШІ
Лекун також проводить аналогію з психологічною моделлю “Система 1 / Система 2”:
- Система 1: Інтуїтивна, швидка, автоматична. Наприклад, досвідчений водій.
- Система 2: Раціональна, обдумана, повільна. Наприклад, вивчення їзди.
LLM, в основному, є в системі 1, а нам потрібно в системі 2. Створення архітектури ШІ, здатної імітувати обидві системи, є ключем.
Висновки: Далі від Тексту
Отже, давайте підсумуємо:
- Лекун вважає, що LLM не приведуть нас до AGI.
- Майбутнє – у розумінні фізичного світу, міркуванні, плануванні та моделях.
- VJEPA – це ключовий компонент, який дозволяє машині вчитися ефективно, подібно людині.
Бонус: Про маштаби
- LLM навчаються на величезних обсягах тексту (трильйони токенів).
- Людина отримує гігабайти даних (візуальних) за лічені роки.
- Навчання лише з тексту є недостатнім.
Це робить висновок: щоб досягти AGI, нам потрібно думати зовсім по-іншому. Шлях до AGI, на думку Лекуна, лежить не в текстах інтернету, а в моделях реального світу.
Тож, де ми зараз? Ми стоїмо на порозі захопливих змін у розвитку ШІ. Світові моделі, як VJEPA, обіцяють нам зовсім інший підхід до створення ШІ. Це може бути саме те, що нам потрібно, щоб справді змінити правила гри.
Дякую за увагу, друзі! Залишайтеся в курсі подій, читайте більше та експериментуйте! До наступного разу!