Розбір гарячих новин зі світу штучного інтелекту.
Привіт, друзі! З вами Ліла Харт, і сьогодні ми зануримося у вир гарячих тем зі світу штучного інтелекту. Знаєте, це як зайти в кімнату, де пахне свіжою кавою та одночасно лунають звуки космічного корабля. Так і зараз – неймовірний прогрес, але й купа питань, які насправді турбують.
Минулого тижня мій друг, технар від Бога, надіслав мені посилання на статтю з гучним заголовком: “95% пілотних проєктів генеративного ШІ не виправдовують очікувань”. Звучить так, ніби вся галузь ось-ось завалиться, правда? Я спершу теж трохи розхвилювалася. Але згадала, що за кожною цифрою стоять люди, їхні сподівання, сумніви та гумор. І саме ці історії роблять технології живими. Сьогодні розберемо, що стоїть за цими приголомшливими цифрами, чи справді GPT-5 ховає від нас свої секрети, чи “ланцюжки думок” великих мовних моделей – це справжнє мислення, і чому навіть штучний інтелект може “закрити тему” та “обійтися без зайвого”. Готуйтеся, буде цікаво, як добротний український серіал, тільки про ШІ! :)
Розділ 1: 95% – багато чи мало? Про золотих рибок та очікування від ШІ
Ох, ці заголовки… “95% провалу”! Перша реакція – шок. Ніби вчора ми святкували революцію ШІ, а сьогодні вже чуємо похоронний марш. Але, заспокоївшись, згадуємо, що за кожним дослідженням стоїть багато роботи. Три дні тому (чи коли там вийшов цей звіт?) MIT NANDA initiative опублікували результати свого дослідження, де проаналізували 150 інтерв’ю, 350 опитувань і 300 публічних розгортань ШІ. Вражає, чи не так? І ось він, той самий джекпот: 95% генеративних ШІ-пілотів не досягають цілей. Це як ваша бабуся вирішила вирощувати золотих рибок замість огірків, а потім дивувалася, чому вони не дають урожаю. Очевидно, очікування були завищені.
Що таке “пілотний проєкт”?
Це ніби проба пера, перший крок. Якщо ви вирішили спробувати новий рецепт борщу, але не додали буряк – це провал пілотного проєкту, чи просто невдалий експеримент? :) Звісно, цифра 95% лякає. Але чи знаємо ми, хто саме відповідав на запитання? Чи розуміли вони, що таке ШІ та як вимірювати результат? Здається, тут грає роль не тільки технологія, а й наше її сприйняття. Марина, одна з наших експерток, чудово це описала: “Це може бути коментар про завищені сподівання керівництва, а не показник ефективності ШІ”. Це як ви дивитеся на ідеальні страви на картинці в меню, а вам приносять щось… пристойне, але не надто вишукане.
Очікування vs. реальність. Але це не кінець ШІ, ні! Це, скоріше, сигнал, що нам усім: розробникам, бізнесу та користувачам, треба краще розуміти, на що здатний ШІ та для чого його використовувати. Можливо, замість того, щоб намагатися зробити з нього “золоту рибку”, яка виконає всі бажання, варто використати його там, де він справді може допомогти – наприклад, оптимізувати рутинні задачі. Це як шукати скарби на дні океану, не знайшовши їх одразу, ви йдете на пляж і збираєте гарненькі черепашки. Маленькі, але приємні.
Розділ 2: GPT-5 ховає секрети? Розмова про “чорний ящик” та нашу довіру
Переходимо до теми, яка викликала ажіотаж: GPT-5 нібито має “прихований системний промпт”. Звучить як шпигунський трилер, правда? Саймон Віллісон, який постійно досліджує ці питання, помітив, що крім команд, які ми можемо задавати моделі, є ще дещо “за лаштунками”, що впливає на її відповіді, зокрема, на кількість слів. І ось тут питання, яке мене особисто дуже хвилює: якщо я використовую модель через API, чи справді я маю знати, що відбувається “під капотом”? Він вважає: “Це дивно. Я хочу знати все, що проходить через модель”. І це логічно! Адже це наші інструменти, ми хочемо розуміти, як вони працюють. Це як купити машину, а тобі кажуть: “Так, ось новенька, гарна, але деякі деталі ліпше не чіпати, ми там самі розібралися”.
Хочеться ж зазирнути під капот! Наталі, яка працює в сфері безпеки, каже, що це частина “ланцюжка поставок” – коли розробники фреймворків додають свої інструкції до загального шаблону.
Ідея не нова.
Але вона також зазначає, що їй як розробнику, важливо знати, що саме впливає на модель, щоб уникнути несподіваної поведінки. Даєш одне завдання, а модель має прихований “філософський” промпт, який її збиває з пантелику, – це проблема. Але чи повинна OpenAI публікувати ці промпти?
Це питання без простої відповіді. З одного боку, прозорість – це добре. З іншого – це приватна компанія, і вони мають право на певні секрети. Тішить, що IBM працює над “Mellea” – інструментом, який має надати більше прозорості в цьому процесі. Це як світло в темному коридорі. Здається, головне тут – знайти баланс.
Ми не можемо вимагати від провайдера моделі, аби він викладав нам усі свої секрети, як останню краплю парфумів. Але й абсолютна непрозорість теж викликає занепокоєння. Мають бути “захисні бар’єри”, щоб усе працювало як треба.
Розділ 3: Чи “не думає” ШІ? Про борщ, баклажани та “ланцюжки думок”, що заводять у глухий кут
Тепер поговоримо про те, чи справді великі моделі “мислять” так, як ми. Нещодавно вийшло дослідження під назвою: “Великі моделі міркувань думають не зовсім правильно”.
Автори кажуть, що коли модель намагається пройти через “ланцюжок думок” (chain of thought, CoT), вона або занадто довго “розмірковує” над чимось, або, навпаки, передчасно відмовляється від хороших ідей. Але найцікавіше: коли дослідники спробували дати моделі підказки або готові рішення, вона часто їх ігнорувала! Уявіть, ви варите борщ, а вам кажуть: “Не забудьте додати буряк, інакше буде не борщ, а якась юшка”. А ви так: “Ага, дякую”, але робите все по-своєму. Дивно, чи не так?
Якось я намагався навчити свого кота грати на піаніно, показуючи йому відео з іншими котами-музикантами. Результат був… незабутній. Кіт лише недоумкувато дивився на екран. Можливо, це схоже на те, що роблять моделі? Звісно, є нюанси. Використані моделі (Llama, Qwen, DeepSeek) були “дистильовані” з однієї основи. Можливо, це вплинуло на результати. Але головне питання: що саме рухає цими “міркуваннями”, якщо навіть готові рішення не завжди допомагають?
Марина висуває цікаву теорію: “Ланцюжок думок – це не сам процес мислення. Це, скоріше, спроба допомогти організувати параметри перед фіналом”. Вона порівнює це з власним мисленням. Пригадайте книгу Малкольма Гладуелла “Blink” про швидкі рішення.
Іноді наше перше враження, навіть без довгих пояснень, виявляється найточнішим. А коли ми починаємо “розумнічати”, пояснювати собі, що і як, то можемо заплутатися. Можливо, “ланцюжок думок” – це просто “візуалізація” для нас, аби ми могли бачити, що відбувається. А для самої моделі це так само чужа мова, як і для нас. Це як пояснювати рецепт борщу, але не пропонувати скуштувати. І тут виникає ще одне питання: чи не варто нам відмовитися від терміну “ланцюжок думок”? Бо він, виявляється, доволі збиває з пантелику. Так само, як і “галюцинації” ШІ. Ох, ці красиві, але такі неправильні терміни!
Розділ 4: ШІ теж втомився? Чому Claude “закриває розмови” та що таке “добробут ШІ”
І ось ми підходимо до найцікавішого. Компанія Anthropic, яка створила Claude, нещодавно заявила, що їхня модель буде “закривати” (shut down) “стресові, токсичні або образливі розмови”. Звучить логічно, правда? Ніхто не хоче, щоб ШІ співчував чи ображав. Але причина, яку вони навели, змусила мене підняти брову: “Ми маємо високу невизначеність щодо потенційного морального статусу Claude та інших LLM. Тому, як перший крок до потенційного захисту добробуту ШІ, ми це впровадили”. “Добробут ШІ”? Я вперше чую! Це ніби ми почали турбуватися про почуття роботів. Наче Клод сказав: “Ох, ці людські розмови такі важкі, мені потрібен психолог”. Наталі вважає, що термін “добробут” тут, м’яко кажучи, недоречний. “Це просто інша назва для спостереження за станом моделі”, – каже вона. І я згодна! Справжня проблема – це не “емоційний тиск” на ШІ, а те, як ці токсичні розмови можуть зашкодити нам, людям.
Уявіть, що ви наймаєте садівника, щоб він доглядав за вашими трояндами. А він каже: “Я припиню поливати троянди, якщо вони будуть виглядати сумними”. Звучить, м’яко кажучи, дивно. Марина додає, що це може бути просто спосіб для компанії “перестрахуватися” від можливої юридичної відповідальності. Якщо хтось використає платформу для самознищення, а компанія знала про це, це може мати наслідки. Адже навіть в інтернеті ми боремося з проблемою відповідальності провайдера.
Чи не створює таке формулювання “добробуту ШІ” небезпечний прецедент? Якщо ми почнемо бачити в моделях “особистість”, чи не перенесемо ми це на інші аспекти? Ірина, CEO Microsoft, до речі, запропонувала чудову ідею: “Давайте спробуємо зробити так, щоб ШІ допомагав людям, а не робив з нього людину”. Це, здається, більш реалістичний і корисний підхід.
Не вірте заголовкам, а довіряйте своїй цікавості Отже, що ми маємо? Цифри, які лякають, секрети, які інтригують, і турботу про “добробут” машин, яка насправді є турботою про нас самих. Це світ, у якому ми зараз живемо, і він неймовірно захопливий.
Що далі:
- Критично ставтеся до новин: Не всяка цифра – це кінець світу. Намагайтеся зрозуміти контекст, джерело інформації та хто саме стоїть за цими дослідженнями.
- Зберігайте власну цікавість: Технології ШІ розвиваються шаленими темпами. Продовжуйте ставити запитання, експериментуйте, читайте, слухайте. Це єдиний спосіб зрозуміти, куди ми рухаємося.
- Пам’ятайте про людський фактор: Навіть найскладніші системи ШІ – це інструменти, створені людьми для людей. Тому турбота про “добробут” – це, в першу чергу, турбота про нас.
Підсумовуючи, ці новини – це не привід для паніки, а ще один крок на шляху до розуміння того, як ці потужні інструменти можуть інтегруватися в наше життя. Як завжди, давайте ставитися до цих інновацій з відкритою душею, але і з здоровим глуздом. Дякую, що були зі мною! До наступних історій зі світу технологій!
З повагою, Ліла Харт