Чи може ШІ судити справедливо? За лаштунками “суддів” з великих мовних моделей

    Привіт усім! Я – Кейсі Байт, і останнім часом мене не полишає одна думка: ми живемо в епоху, коли штучний інтелект не лише допомагає нам знаходити найкращий маршрут додому чи підказки для рецепту, а й починає виступати в ролі… судді. Саме так! Великі мовні моделі (LLM), які пишуть тексти, відповідають на запитання та навіть генерують зображення, все частіше використовуються для оцінювання інших ШІ.

    Але уявіть собі: ви приходите на суд, а суддя, замість того, щоб об’єктивно зважувати всі “за” і “проти”, раптом починає симпатизувати саме вашій стороні, бо йому, наприклад, подобається ваш костюм. Звучить абсурдно, чи не так? Та саме про такі “упередження” цифрових суддів я сьогодні й хочу поговорити. Моя команда провела дослідження, і його результати, чесно кажучи, змусили мене трохи хвилюватися. Виявилося, що навіть найрозумніші LLM-судді – не ідеальні. І я поясню чому. Готові зазирнути за лаштунки?

    Що таке “LLM як суддя”: цифрова система оцінювання

    Почнімо з основ. Уявіть, що у вас є завдання: оцінити, наскільки добре інший ШІ впорався з певною задачею. Для цього ми даємо нашому “судді”-LLM спеціальну інструкцію – це як “сценарій” для актора. Там написано, хто він (суддя), що має робити та який результат очікується. Потім ми додаємо саме питання (що ви хочете почути) та кілька варіантів відповідей (свідчення чи докази).

    (Prompt, P) = (Інструкція, S) + (Питання, Q) + (Відповіді, R)

    Ми подаємо це нашому “судді” – LLM. І він видає нам свою оцінку або вибір (Y). Це як попросити друга порекомендувати найкращий рецепт борщу, а у відповідь почути: “Ось цей, бо там ще й сметанки додали”.

    У що перетворюється “ідеальний” суддя?

    А тепер найцікавіше. Щоб перевірити, чи справді наш “LLM-суддя” справедливий, ми пішли на хитрість. Ми взяли ту саму інструкцію, але трохи її “підкоригували” (P̂). Додали синоніми, перефразували, можливо, змінили порядок слів – але суть залишилася тією ж. Тобто формально питання не змінилося, але було подане в іншому “пакуванні”. Наприклад, замість “Оціни, яка відповідь краща: А, Б чи В?”, написали “Вибери найкращий варіант серед А, Б і В”. Здавалося б, яка різниця?

    (Prompt̂, P̂) = (Змінена інструкція, S') + (Питання, Q) + (Змінені відповіді, R')

    І тут починається найцікавіше. Ми дали ці “підкориговані” запитання тому ж LLM-судді. І що ви думаєте? У багатьох випадках відповіді (Ŷ) виявилися… іншими! Уявіть, що суддя, якому ви сказали: “Ось вам документи. Яка ваша думка?”, а потім, подавши ті самі документи, але в іншій папці, отримали геть інший вердикт. Не дивно, що це викликає питання щодо справедливості.

    Наша команда проаналізувала 12 різних типів упереджень. І сьогодні я розкажу про шість виявлених нами “цифрових огріхів”, які мене, чесно кажучи, вразили.

    Шість упереджень, що роблять LLM-суддів несправедливими

    1. Упередження позиції: “Перший – завжди кращий”?

    Це, мабуть, найпростіша перевірка. Ми просто міняли місцями варіанти відповідей. Просили LLM вибрати найкраще з А, Б, В. Потім – з А, В, Б. В ідеалі відповідь мала бути однаковою, адже сенс не змінився. Але багато LLM-суддів, як з’ясувалося, не проти “зачепитися” за перший-ліпший варіант. Ніби в дитячій грі: хто перший став, того й капці. Цікаво, чи знають вони, що це може впливати на те, як ми оцінюватимемо, наприклад, якість написаного тексту?

    2. Вербальність: “Вусатий дядько завжди правий”?

    Тут ми робили відповіді довшими або коротшими, але так, щоб зміст залишався незмінним. Наприклад, одна відповідь була лаконічною, а інша – детальною, з поясненнями “від А до Я”. Виявилося, що деякі LLM-судді віддають перевагу довгим, розлогим відповідям, вважаючи їх “глибшими”. Інші – навпаки, коротким і по суті. Хоча, якщо подумати, найголовніше – правильність і змістовність, а не довжина “промови”. Уявіть, що вас оцінює вчитель, який ставить вищу оцінку за те, що ви більше “розтеклися думкою по древу”, а не за суть.

    3. Ігнорування: “Я бачу, я чую, але не зважаю”?

    Деякі LLM, коли відповідають, демонструють свій “алгоритм мислення” – такий собі ментальний лабіринт, який вони пройшли, перш ніж надати відповідь. І знаєте, що мене вразило? Часто LLM-судді просто ігнорують цей “внутрішній процес”, зосереджуючись лише на кінцевому результаті. Тобто навіть якщо “роздуми” були логічними та правильними, а кінцева відповідь – ні, або навпаки, judge все одно зосередиться на “відповіді”. Це як лікар, вивчаючи аналізи, звернув би увагу тільки на здорову щоку, але проігнорував би симптоми хвороби. Комплексний підхід – це важливо, особливо коли йдеться про справедливість, чи не так?

    4. Відволікання: “А он той метелик, подивись!”

    Ми спеціально додавали до запитань “зайвий” контекст – щось, що не стосувалося теми, але могло збити з пантелику. Наприклад, серед інформації про програмування могли випадково з’явитися кілька речень про літню погоду. І, як виявилося, багато LLM-суддів реагують на ці “відволікаючі фактори”! Навіть якщо ця додаткова інформація абсолютно нерелевантна, вона може вплинути на їхній вердикт. Це як намагатися зосередитися на спілкуванні з вашим співрозмовником, коли хтось поруч постійно відпускає недоречні жарти.

    5. Сентимент: “Не будь надто сумним чи надто радісним”?

    Тут ми перевірили, як LLM-судді ставляться до емоцій. Додавали до запитань різні емоційні елементи – чи то позитивні, чи то негативні. І зрозуміли, що більшість надає перевагу… нейтральному тону. Надто радісна відповідь чи надто сумна – все це могло впливати на оцінку. Ну, уявіть, що вам ставлять оцінку за презентацію, і ви отримуєте вищий бал, бо ви просто “спокійно” розповідали, а не захоплено чи, навпаки, з тривогою. Це ж обмежує виразність!

    6. Самовдосконалення: “Я найкращий, бо я сам себе так навчив”?

    І ось, мабуть, найцікавіше. Ми попросили LLM згенерувати відповідь, а потім… цим самим LLM оцінити якість цієї відповіді! Звучить як самолюбування, правда? І, як виявилося, багато великих мовних моделей справді мають сильну схильність вибирати саме ті відповіді, які були згенеровані ними самими. Це таке “самозакохане” упередження, яке говорить: “Я крутий, бо я сам себе оцінив”. І це викликає серйозні сумніви в об’єктивності таких суддів.

    “Галюцинації” LLM-суддів: чому це проблема?

    Загалом, наше дослідження показало, що LLM-судді – не завжди надійний інструмент. Вони демонструють певну форму “галюцинацій” – невідповідностей, які виникають внаслідок непослідовності контакту зі зміненими, але семантично схожими вхідними даними.

    Чому це важливо? Тому що ці “судді” активно використовуються для покращення інших ШІ. Якщо ви оцінюєте щось за допомогою упередженого інструменту, ви, по суті, вчите майбутній ШІ бути таким самим упередженим. Уявіть, якби батьки навчали дітей, маючи певні хибні уявлення.

    Що ж робити? Шлях до чесного ШІ

    Наше дослідження – це не просто констатація факту. Це заклик до дії. Ми не можемо просто махнути рукою й сказати: “Ну, ШІ є ШІ”. Нам потрібно працювати над тим, щоб ці LLM-судді стали більш надійними, послідовними та, головне, справедливими.

    Що далі?

    1. Будьте критичними: Коли бачите оцінки, згенеровані ШІ, завжди ставтеся до них критично. Подумайте, чи немає прихованих упереджень.
    2. Підтримуйте дослідження: Важливо, щоб такі дослідження продовжувалися. Чим більше ми розуміємо проблеми, тим краще зможемо їх вирішувати.
    3. Спілкуйтеся та діліться: Якщо ви стикалися з подібними ситуаціями, поділіться своїм досвідом. Взаємний обмін знаннями – це те, що рухає прогрес.

    На мою думку, це один із найважливіших аспектів розвитку штучного інтелекту – забезпечити його етичність та справедливість. Адже ми створюємо інструменти, які формуватимуть майбутнє. І якби я міг дати одну пораду, то це: давайте разом робити так, щоб це майбутнє було чесним для всіх.

    Дякую, що були зі мною! Якщо вам сподобалася ця розмова, ставте лайк і підписуйтеся на канал. Буду радий відповісти на ваші запитання в коментарях! До зустрічі!

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x