Документи в епоху ChatGPT: як штучний інтелект перетворює невизначене на цінність
Якось, сидячи у затишній кав’ярні після захоплюючого технічного саміту, я ловила себе на думці: світ навколо нас змінюється зі швидкістю світла. Ми живемо в епоху даних, де інформація сиплеться звідусіль – а отже, ми потребуємо нових, розумніших способів її опрацювання. Особливий інтерес викликала тема, яку підняв один з ключових спікерів: як саме штучний інтелект (ШІ) може перетворити хаос неструктурованих даних на ключову інформацію, яка керуватиме нашими рішеннями.
Віддавна людство записувало важливі речі. Від таємничих малюнків у печерах до складних ієрогліфів, від рухомого друкарського верстата Ґутенберґа до сучасних цифрових файлів PDF – ми завжди прагнули зафіксувати досвід і знання. Саме тому тексти, таблиці, діаграми стали невіддільною частиною нашої історії. Та в сучасному цифровому світі багато інформації існує у формі неструктурованих даних – таких, як документи, які здаються нескінченними лабіринтами слів, символів та цифр. Інженери та розробники стикаються з викликом: як вилучити цінну інформацію з цих “джунглів” та зробити її доступною для прийняття обґрунтованих рішень?
Спікер, з яким ми спілкувались, поділився захоплюючими ідеями про те, як поєднати два його улюблені елементи: ШІ-агентів та інтелектуальну обробку документів. І хоча термін “інтелектуальна обробка документів” може звучати складно, суть проста: це про те, як ми можемо використати потужні інструменти, щоб допомогти людям працювати безпосередньо з неструктурованими даними.
Документи: дзеркало реальності, виклик для ШІ
Він почав з простого питання: що, власне, таке документ? Тут і починається цікаве. Звісно, ми всі знаємо, як виглядає документ: у нього є назва, безліч слів, абзаци та пунктуація. Але в бізнес-середовищі часто зустрічаються документи з табличними даними – наприклад, таблиці 2х4 або, ще складніше, 5х3. Або ще гірше – документи можуть бути довгими, часом містити 600 сторінок й більше! До того ж, вони можуть включати складні таблиці на декілька сторінок, чи таблиці з десятками тисяч рядків.
Отже, маємо справу з текстом, таблицями різних розмірів, іноді хаотично розміщеними. Це традиційно вважається проблемою неструктурованих даних. Досвідчені фахівці, які вже стикалися з цим, найчастіше згадують оптичне розпізнавання символів (OCR). OCR використовує комп’ютерний зір для розпізнавання символів та слів, перетворюючи їх на текст. Звісно, OCR може частково розпізнавати таблиці, але виникають серйозні проблеми з перенесенням сторінок, з фактичним семантичним розумінням даних, що особливо критично – оскільки ми маємо велику кількість лише простого тексту. Потрібно більше!
Крім того, один документ зазвичай не має великої цінності сам по собі. Документи взаємопов’язані, утворюючи ієрархії.
Ієрархії: складна система взаємозв’язків
Він навів переконливі приклади. Ось, наприклад, вертикальна ієрархія: в юридичній сфері є основний договір на надання послуг (Master Service Agreement). Під ним – специфікація робіт (Statement of Work), яку згодом може бути доповнено, а потім ще раз, і так далі. Специфікація може «народити» замовлення на закупівлю, а замовлення – рахунок-фактуру. Щоб повністю зрозуміти сенс такого взаємозв’язку, потрібно об’єднати всі ці документи.
Горизонтальні ієрархії також важливі. У сфері досліджень та розробок може бути наукова стаття, потім важливий результат дослідження (R2), який посилається на попередні результати, і, зрештою, стаття (R3), яка посилається вже на R2. Подальшою точкою розвитку може бути патентна заявка. А потім – власне виробництво та документація продукту. Іншими словами, ціла епістемологія ідей, що перетворюються на матеріальний результат з часом. Цікаво спостерігати за цим процесом!
Приклад з постачанням товарів може здатися зовсім простим: коносамент (Bill of Lading), сертифікат страхування, що підтверджує страхування вантажу, документ про отримання вантажу (Shipping receipt). Якщо товар пошкоджений – претензія. Логіка тут така: щоб зрозуміти взаємозв’язки між відправником та одержувачем, ми повинні розуміти електронні листи та коносаменти. А щоб зрозуміти горизонтальні взаємозв’язки, потрібно розібратися, як коносаменти пов’язані з квитанціями про доставку та як сертифікат страхування стосується претензій.
Все це – виклик для системи. Але тепер, нарешті, настав час поговорити про революційну технологію: Generative Pre-trained Transformer – GPT моделі.
GPT: магія перетворення
GPT – це нові, потужні моделі, які дозволяють нам розвивати великі мовні моделі (LLM). GPT використовує багато технологій нейронних мереж. Ключова особливість – можливість застосування цих трансформерів до обмеженої мови. Ось англійська мова: приблизно 170 000 слів в активному словниковому запасі, 26 символів, числа. Нескінченні числа, але просто розпізнаються. Фактично, все набагато простіше в порівнянні з невідомим!
Цей простір, за оцінкою, містить понад 600 мільярдів параметрів. Насправді, щоб параметризувати простір, який виглядає як англійська мова, потрібно трохи більше 600-700 мільярдів параметрів.
Отже, що ж таке – Generative Pre-trained Transformer? Ми маємо вхідні дані, і хочемо отримати очікувані результати. Вхідними даними буде мова – потім ми назвемо їх токенами. Це так зване вбудовування – перетворення словникового запасу в математику. Далі – трансформери. Вони створюють простір високої розмірності, щоб не просто враховувати відстань між двома речами, а й двовимірні графічні зображення. Увага та нормалізація починають групувати.
Це – дуже складні математичні обчислення. Softmax – це надзвичайно складний ймовірнісний алгоритм, який аналізує вхідні токени та обчислює вихідні токени, які будуть мати ймовірність, рівну одиниці, тобто визначають, що саме очікується. “Вихід уваги” (attention output) – шар, де можна налаштувати стиль відповіді – наприклад, з акцентом Нью-Йорка чи Кремнієвої долини. Проекція словника – ваш вихідний результат.
Від документа до інформації: збираємо пазл
Він попросив нас повернутися до задачі з документом, що містить тисячу слів. Мета – створити представлення даних цієї інформації у вигляді моделі. Нас можуть цікавити 20-50 ключових точок. Проблема полягає в тому, що більшість людей намагаються зменшити об’єм інформації. Вони хочуть “вирізати” необхідні ключові точки з документу. Але насправді все працює з точністю до навпаки: відбувається значне розширення!
Ось як це відбувається:
- OCR: Ми застосовуємо оптичне розпізнавання символів. Дані розширюються, можливо, від тисячі до 1-10 мільйонів точок даних.
- Обробка природної мови (NLP): Ми використовуємо NLP, і даних стає ще більше. Ми розширюємося далі.
- LLM (Large Language Model): Ми отримуємо ще більше даних – і їх треба обробити.
- Зворотній процес: Наша кінцева мета – звузити дані до чіткої, зрозумілої моделі.
Все відбувається в декілька етапів: розширення – ще більше розширення – і лише потім повернення до бажаної моделі даних. Ось так ми отримуємо потрібний нам результат.
Агенти ШІ: помічники в світі даних
Він запропонував подумати про створення корисних агентів. Уявімо собі “генетичні робочі потоки”. На відміну від традиційних потоків, де все послідовно, тут ми можемо розробити автономні процеси, які запускаються певними подіями. Агенти можуть взаємодіяти, ділячись результатами роботи один з одним.
Ось декілька корисних агентів:
- Інспекційний агент: Перевіряє файли, шукає проблеми. Перевіряє контрольні суми, міжслівний інтервал, довжину та розмір файлів, контент.
- Агент OCR: Перетворює графічні дані в текст та таблиці, використовуючи один з найефективніших двигунів OCR. Хоча дехто вже бачить в LLM потенціал для повної заміни OCR.
- Векторизаційний агент: Обробляє документи за допомогою LLM, ділить їх на токени та створює векторизоване представлення даних.
- Агент-розділювач: Аналізує всі попередні результати та визначає, де потрібно розділити документи (якщо, наприклад, декілька документів об’єднані).
- Екстрактор: Вилучає ключові дані, застосовуючи автоматичне промтування. Він співпрацює з моделлю даних, щоб знайти саме те, що нам потрібно.
- Агент зіставлення: Допомагає встановлювати горизонтальні та вертикальні ієрархії, розуміючи документи логічно, а також з точки зору транзакцій.
Генетичні робочі потоки: автономія та майбутнє
Він зауважив, що традиційні принципи роботи (використання вхідних та вихідних даних) поступово змінюються. Ми переходимо до генеруючих робочих потоків, які більш автономні та запускаються певними подіями (наприклад, надходженням нових даних). Ці агенти розмовляють між собою, обробляючи результати роботи один одного. Це дає більшу автономію, підвищує ефективність та масштабованість, але також створює простір для непередбачуваності та абсолютно нових можливостей.
Оскільки технології продовжують стрімко розвиватися, все більше галузей відчуватимуть вплив ШІ. Все, що потрібно – це бажання вчитися, експериментувати та адаптуватись до нових реалій.