Розбираємося в термінах Gen AI: 10 ключових концепцій для початківців від Кейсі Байта
Привіт, друзі! Кейсі Байт тут, щоб допомогти вам розібратися в термінології штучного інтелекту (AI), яка останнім часом просто зашкалює. LLM, агенти, RAG… Google видає якісь занадто наукові визначення, чи не так? Отож, я заощаджу вам купу часу і поясню 10 ключових концепцій Gen AI, які використовуються повсюди. З цими знаннями ви зможете краще розуміти новини та дослідження у сфері AI. Поїхали!
1. LLM (Large Language Model) – Великі мовні моделі
Уявіть собі LLM як такий собі текстовий калькулятор. Ви даєте йому запит (prompt) на вхід, а він, проаналізувавши величезний обсяг тексту, який колись бачив, видає найбільш імовірну відповідь.
LLM – це мозок за такими популярними інструментами, як ChatGPT, DeepSeek та інтегроване в пошук Google узагальнення від Gemini. Ці моделі спрощують створення контенту в цифровому світі:
- Додатки розробляються за лічені години, а не дні.
- Фотореалістичні відео з’являються за хвилини.
- Книги пишуться за секунди.
LLM – це не лише чат-боти. З API (Application Programming Interface) ви можете підключити LLM до реального світу і дати їм доступ до актуальних даних:
- Погода
- Курси акцій
- Рахунки в спортивних іграх
2. Агенти – LLM, що діють
Якщо LLM просто відповідають на запитання, то агенти можуть виконувати певні дії на основі отриманої інформації:
- Клікати по браузеру
- Працювати з вашим комп’ютером
Прикладом може бути Operator agent від OpenAI, який має вбудований браузер для пошуку інформації. Існують також агенти для досліджень, автоматизації задач і навіть виконання роботи:
- Написання коду
- Бронювання квитків
- Замовлення піци
Комбінуючи збір інформації та дії на її основі, агенти стають потужними AI-асистентами для вирішення складних завдань.
3. Контекстне вікно (Context Window) – короткочасна пам’ять
У LLM є обмеження – обсяг інформації, який вони можуть запам’ятати в певний момент часу. Це як біла дошка: коли вона заповнюється, потрібно щось стерти, щоб звільнити місце для нового.
Саме тому, спілкуючись з ChatGPT тривалий час, ви можете помітити, що бот забуває попередні частини розмови. Ви просто перевищили контекстне вікно.
4. RAG (Retrieval Augmented Generation) – згадуємо минуле за допомогою бібліотекаря
Для вирішення проблеми короткочасної пам’яті використовують довготривалі рішення, наприклад, векторні бази даних. З’являється RAG – робочий процес, який передбачає пошук релевантних даних і надання їх LLM перед тим, як він відповість на запитання.
Уявіть, RAG як бібліотекаря, який шукає відповідні книги та інформацію з бібліотеки, щоб допомогти вам знайти потрібну інформацію. RAG дозволяє AI отримувати актуальну та спеціалізовану інформацію за потреби, роблячи його набагато обізнанішим, ніж просто покладатися на свої вбудовані дані.
5. Chain of Thought Reasoning – міркуємо крок за кроком
Ще один популярний метод зробити LLM розумнішими – попросити їх пояснити свої міркування крок за кроком прямо в запиті. Це називається “Chain of Thought Reasoning” (ланцюжок міркувань).
Завдяки такому підходу, deep seek вдалося майже зрівнятися з моделями OpenAI, а іноді й перевершити їх. OpenAI також використовували Chain of Thought Reasoning для своєї моделі 01 reasoning і змогли покращити свої результати та точність у різних математичних змаганнях.
Chain of Thought Reasoning покращує точність LLM, змушуючи модель пояснювати свої міркування крок за кроком із багатокроковими обґрунтуваннями та логічними висновками.
6. Галюцинації – коли AI фантазує
Chain of Thought Reasoning та RAG допомагають зменшити галюцинації в наших LLM моделях. Галюцинація – це коли модель видає інформацію, яка звучить правдиво, але насправді є невірною.
LLM навчені передбачати наступне ймовірне слово, але вони не здатні логічно мислити “з коробки”. Вони не можуть оцінити, чи логічно те, що вони говорять зараз, з тим, що вони збираються сказати через 50 слів. Тому ми використовуємо Chain of Thought Reasoning і RAG, щоб надати їм актуальну інформацію та дані, а також змусити міркувати крок за кроком і запоPrevent галюцинації.
7. Prompt Engineering – мистецтво спілкування з AI
Chain of Reasoning – це техніка розробки промптів (запитів), тобто метод створення запитів, щоб LLM видавала конкретні відповіді, які найкраще відповідають нашим потребам.
Наприклад, якщо ви просите LLM порадити фільми, додайте в запит різні жанри, часові періоди та улюблених акторів. Так модель звузить пошук і видасть фільми, які ви з більшою ймовірністю захочете подивитися. З загальним і розпливчастим запитом моделі буде важче відповісти на ваші запитання. Загалом, чим детальнішим і конкретнішим буде ваш запит, тим точнішою буде відповідь моделі.
8. Model Distillation – вчитель і учень
Model Distillation – це процес, коли велика модель (вчитель) навчає маленьку (учня) тому, що знає. Проблема багатьох LLM сьогодні полягає в тому, що вони дуже великі й вимагають багато обчислювальних ресурсів і GPU для запуску. Тому ви можете використовувати меншу модель, яка може поміститися на більшості ноутбуків, і навчити її на даних великих LLM. У результаті, маленька модель навчається на даних, які пояснюють, як велика модель відповідала на певні запитання, і часто досягає подібної точності за меншу ціну. Таким чином, маленькі LLM можна використовувати в додатках і розгортати повсюди.
9. Температура – управління креативністю
Температура – важливий параметр великих мовних моделей, діапазон якого становить від 0 до 1.
- 0 – найменш випадкові, найбільш наукові, консервативні та повторювані результати.
- 1 – найкреативніші та найбільш випадкові результати, але також найбільш схильні до галюцинацій.
Тому є компроміс між двома кінцями, який залежить від вашого застосунку. Наприклад, у юридичному застосунку, де потрібна найвища точність, зазвичай краща температура ближча до нуля. А якщо ви генеруєте нові ідеї, поезію чи мистецтво, вам зазвичай потрібна вища температура, щоб бути креативним і створювати щось унікальне та нове.
10. Мультимодальність – більше, ніж просто текст
Мультимодальність – це здатність LLM приймати не лише текст, а й інші файли як вхідні дані:
- зображення;
- відео;
- таблиці Excel;
- документи PDF.
ChatGPT може працювати з усіма цими форматами, крім відео. А моделі, як Gemini, можуть обробляти великі обсяги відео та створювати з них резюме.
Отже, LLM можуть не тільки приймати текст і виводити його, але й інші формати файлів, розширюючи спектр їх застосування.
Висновок
Ось і все! Топ-10 концепцій Gen AI, які вам потрібно знати, щоб читати новини та дослідження у сфері AI. Сподіваюся, мої пояснення були корисними. До зустрічі у нових статтях!