Документи в епоху ChatGPT: як штучний інтелект перетворює невизначене на цінність
Якось, сидячи у затишній кав’ярні. Після захоплюючого технічного саміту, я ловила себе на. Думці: світ навколо нас змінюється зі швидкістю світла. Ми живемо в епоху даних, де інформація сиплеться звідусіль. – а отже, ми потребуємо нових, розумніших способів її опрацювання. Особливий інтерес викликала тема, яку підняв один з ключових спікерів: як саме штучний інтелект (ШІ) може перетворити хаос неструктурованих даних на ключову інформацію, яка керуватиме нашими рішеннями.
Віддавна людство записувало важливі речі. Від таємничих малюнків у печерах до складних ієрогліфів, від рухомого друкарського верстата Ґутенберґа. До сучасних цифрових файлів PDF – ми завжди прагнули зафіксувати досвід і знання. Саме тому тексти, таблиці, діаграми стали невіддільною частиною нашої історії. Та в сучасному цифровому світі багато інформації існує у формі неструктурованих даних – таких, як документи, які здаються нескінченними лабіринтами слів, символів та цифр. Інженери та розробники стикаються з викликом: як вилучити цінну інформацію з цих “джунглів” та зробити її доступною для прийняття обґрунтованих рішень?
Спікер, з яким ми спілкувались, поділився захоплюючими ідеями про те. Насправді, як поєднати два його улюблені елементи: ШІ-агентів та інтелектуальну обробку документів. Справа в тому, що і хоча термін “інтелектуальна обробка розумієте, документів” може звучати складно, суть проста: це про. Дивно, те, як ми можемо використати потужні інструменти, щоб допомогти людям працювати безпосередньо з неструктурованими даними. Простіше кажучи,
Документи: дзеркало реальності, виклик для ШІ
Він почав з простого питання: що, власне, таке документ? Тут і починається цікаве. Звісно, ми всі знаємо, як виглядає документ: у. Більше того, нього є назва, безліч слів, абзаци та пунктуація. Але в бізнес-середовищі часто зустрічаються документи з табличними даними – наприклад, таблиці 2х4 або, ще складніше, 5х3. Або ще гірше – документи можуть бути довгими, часом містити 600 сторінок й більше! До того ж, вони можуть включати складні таблиці на декілька сторінок, чи таблиці з десятками тисяч рядків.
Отже, маємо справу з текстом, таблицями різних розмірів, іноді хаотично розміщеними. Це традиційно вважається проблемою неструктурованих даних. Досвідчені фахівці, які вже бачите, стикалися з цим, найчастіше згадують оптичне розпізнавання символів (OCR). OCR використовує комп’ютерний зір для розпізнавання символів та слів, перетворюючи їх на текст. Звісно, OCR може частково розпізнавати таблиці, але виникають серйозні проблеми з перенесенням сторінок, з фактичним. Семантичним розумінням даних, що особливо критично – оскільки десь так, ми маємо велику кількість лише простого тексту. Потрібно більше! Справа в тому, що
один документ зазвичай не має великої цінності сам по собі. Очевидно, документи взаємопов’язані, утворюючи ієрархії.
Ієрархії: складна система взаємозв’язків
Він навів переконливі приклади. Дивно, ось, наприклад, вертикальна ієрархія: в юридичній сфері є. Основний договір на надання послуг (Master Service Agreement). Під ним – специфікація робіт (Statement of Work), яку згодом. Може бути доповнено, а потім ще раз, і так далі. Специфікація може “народити” замовлення на закупівлю, а замовлення – рахунок-фактуру. Відверто кажучи, щоб повністю зрозуміти сенс такого взаємозв’язку, потрібно об’єднати всі ці документи.
Горизонтальні ієрархії також важливі. У сфері досліджень та розробок може бути наукова стаття, потім важливий результат дослідження (R2), який посилається на попередні результати, і, зрештою, стаття (R3), яка посилається вже на R2. Безумовно, подальшою точкою розвитку може бути патентна заявка. А потім – власне виробництво та документація продукту. Іншими словами, ціла епістемологія ідей, що перетворюються на матеріальний результат з часом. Цікаво спостерігати за цим процесом! Чесно кажучи,
Приклад з постачанням товарів може здатися зовсім простим: коносамент (Bill of. Lading), сертифікат страхування, що підтверджує страхування вантажу, документ про отримання вантажу (Shipping receipt). Якщо товар пошкоджений – претензія. Логіка тут така: щоб зрозуміти взаємозв’язки між відправником та одержувачем, ми повинні розуміти електронні листи та коносаменти. А щоб зрозуміти горизонтальні взаємозв’язки, потрібно розібратися, як коносаменти пов’язані. З квитанціями про доставку та як сертифікат страхування стосується претензій.
Все це – виклик для системи. Але тепер, нарешті, настав час поговорити про революційну технологію: Generative Pre-trained Transformer – GPT моделі.
GPT: магія перетворення
GPT – це нові, потужні. Моделі, які дозволяють нам розвивати великі мовні моделі (LLM). Дивно, gPT дивіться, використовує багато технологій нейронних мереж. Ключова особливість – можливість застосування цих трансформерів до обмеженої мови. Ось англійська мова: приблизно 170 000 слів в активному словниковому запасі, 26 символів, числа. Нескінченні числа, але просто розпізнаються. Фактично, все набагато простіше в порівнянні з невідомим!
Цей простір, за оцінкою, містить понад 600 мільярдів параметрів. Насправді, щоб параметризувати простір, який виглядає як англійська мова, потрібно трохи більше 600-700 мільярдів параметрів. Цікаво,
Отже, що ж таке – Generative Pre-trained Transformer? Ми маємо знаєте, вхідні дані, і хочемо отримати очікувані результати, щось на зразок. Вхідними даними буде мова – потім ми назвемо їх токенами. Це так зване вбудовування – перетворення словникового запасу в математику. Далі – трансформери. Вони створюють простір високої розмірності, щоб слухайте, не просто враховувати відстань десь так, між двома речами, а й двовимірні графічні зображення, типу того. Звичайно, увага та нормалізація починають групувати оскільки
Це – дуже складні математичні обчислення. Зрозуміло, softmax – слухайте, це надзвичайно складний ймовірнісний алгоритм, який аналізує вхідні токени та обчислює. Вихідні токени, які будуть мати ймовірність, рівну одиниці, тобто визначають, що саме очікується. Звичайно, “Вихід уваги” (attention output) – шар, де можна налаштувати. Стиль відповіді – наприклад, з акцентом Нью-Йорка чи Кремнієвої долини. Більше того, наприклад, проекція словника – ваш вихідний результат.
Від документа до інформації: збираємо пазл
Він попросив нас повернутися до задачі з документом, що містить тисячу слів. Мета – створити представлення даних цієї інформації у вигляді моделі. Нас можуть цікавити 20-50 ключових точок. Проблема полягає в тому, що більшість людей намагаються зменшити об’єм інформації. Цікаво, вони хочуть “вирізати” ну, необхідні ключові точки з документу. Але насправді наприклад, все працює з точністю до навпаки: відбувається значне розширення!
Ось як це відбувається:
- OCR: Ми застосовуємо оптичне розпізнавання символів. Дані розширюються, можливо, від тисячі до 1-10 мільйонів точок даних.
- Обробка скажімо, природної мови (NLP): Ми використовуємо NLP, і даних стає ще більше. Ми розширюємося далі.
- LLM (Large Language Model): Ми отримуємо ще більше даних – і їх треба обробити. Безумовно,
- Зворотній процес: Наша кінцева мета – звузити дані до чіткої, зрозумілої моделі.
Все відбувається в декілька етапів: розширення – ще. Очевидно, більше розширення – і лише потім повернення до бажаної моделі даних. Ось так ми отримуємо потрібний нам результат.
Агенти ШІ: помічники уявіть собі, в світі. Даних
Він запропонував подумати про створення корисних агентів. Уявімо собі “генетичні робочі потоки”. На відміну від традиційних потоків, де все послідовно, тут. Ми можемо розробити автономні процеси, які запускаються певними подіями. Агенти можуть взаємодіяти, ділячись результатами роботи один з одним.
Ось декілька корисних агентів:
- Інспекційний агент: Перевіряє файли, шукає проблеми. Перевіряє контрольні суми, міжслівний інтервал, довжину та розмір файлів, контент.
- Агент OCR: Перетворює графічні дані в текст та таблиці, використовуючи один з найефективніших двигунів OCR. Хоча дехто вже бачить в LLM потенціал для повної заміни OCR.
- Векторизаційний агент: Обробляє документи за допомогою LLM, щось на зразок. Ділить їх на токени та створює векторизоване представлення даних.
- Агент-розділювач: Аналізує всі попередні результати та визначає. Де потрібно розділити документи (якщо, наприклад, декілька документів об’єднані).
- Екстрактор: Вилучає ключові дані, застосовуючи автоматичне промтування. Він співпрацює скажімо, з моделлю даних, щоб знайти саме те, що нам потрібно. Зрозуміло,
- Агент зіставлення: Допомагає встановлювати горизонтальні та вертикальні ієрархії. Розуміючи документи логічно, а також з точки зору транзакцій.
начебто,
Генетичні робочі потоки: автономія та майбутнє
Він зауважив. Що традиційні принципи роботи (використання вхідних та вихідних даних) поступово змінюються. Ми переходимо до генеруючих робочих потоків, які більш автономні та запускаються певними подіями (наприклад, надходженням нових даних). Ці агенти розмовляють між собою, обробляючи результати роботи один одного. Відверто кажучи, це дає більшу автономію, підвищує ефективність та масштабованість, але також створює простір для непередбачуваності та абсолютно нових можливостей.
Оскільки технології продовжують стрімко розвиватися, все більше галузей відчуватимуть вплив ШІ. Все, що потрібно – це бажання вчитися, експериментувати та адаптуватись до нових реалій.