Світ, що Народжується: Розмова з Лоґаном Патріком про Gemini та Майбутнє AI
Зіткнувшись з епохою, де штучний інтелект перестає бути лише науково-фантастичною мрією, а стає частиною повсякденного життя, я не могла не відчути захоплення. Нещодавно мала нагоду провести час з Лоґаном Патріком, одним з піонерів у сфері AI, який зараз працює в Google DeepMind. Наша розмова вийшла за рамки технічних деталей, перетворившись на мандрівку у серце і душу технологічних змін, які вже сьогодні змінюють наше сприйняття світу.
Лоґан, людина, що пройшла крізь вогонь трансформації в OpenAI, а тепер в Google, ділиться своїм досвідом, розкриваючи нюанси та відмінності між цими гігантами. Перехід від стартап-культури до культури гігантської корпорації – це ніби два полюси одного магніту, які, проте, притягують до себе однаково сильним чином.
“У OpenAI, по суті, була чиста дошка”, – розповідає Лоґан. “Вони мали свободу називати свої продукти як хотіли, використовувати будь-які URL-адреси, тощо. Google ж має надзвичайну перевагу – широту своїх можливостей. У Google DeepMind ми маємо все: від наукових досліджень з розгортання білкових структур до генерації зображень та моделей погоди. DeepMind – єдине місце у світі, де це все працює в такому масштабі.”
Він наголошує на важливості мультимодальності та багатофункціональності. На його погляд, саме такий підхід, можливий лише в масштабі DeepMind, відкриває шлях до дійсно корисного AI. Перехресне запилення наукових розробок, від AlphaFold до Gemini, вже сьогодні змінює взаємодію користувачів з продуктами Google.
Лоґан поділився думкою щодо того, як часто компанії недооцінюють “магію” технології, впускаючи потенціал передати справжню цінність.
“Справжню історію AI може розповісти лише Google, в якій так багато різних аспектів, які потребують узгодження”, – пояснює він. “Google інтегрує Gemini в найпопулярніші продукти, що щодня використовуються мільярдами людей: Пошук, YouTube. Саме тут важливі всі ці нюанси. Він пригадує відчуття, коли Gemini з’явився в Google Maps, дозволяючи запитати про час очікування у черзі в конкретному місці: “Це було неймовірно”. Це те, що було неможливим, але відповідь тепер можна отримати за 10 секунд.”
Ми перейшли до теми практичного застосування Gemini. Лоґан виділив інструмент, який, на його думку, недооцінюють – Deep Research.
“Deep Research – це ваш помічник у дослідженні. Ви ставите питання, а модель переглядає з тисячі вебсайтів, щоб знайти відповідь. Це надає впевненості в моделі. AI часто змушує користувача виконувати всю роботу на початку. Deep Research ж робить важку роботу за вас.”
Далі ми поглибилися у нові можливості, які приносять моделі розмірковування (reasoning models).
“Якщо вам потрібна інформація, яка виходить за рамки поверхневого рівня, Deep Research є незамінним. Моделі розмірковування дозволяють моделі “внутрішньо розмовляти”, обмірковуючи різні аспекти питання, як це робимо ми. Спочатку AI просто відповідав швидко. Але нові моделі розмірковування навчаються не давати відповідь одразу, а ітеруватися і обговорювати різні варіанти відповіді. Це привело до зовсім інших результатів.”
Мені здається, що тут криється ключ до справжніх див. Лоґан розповів історію про те, як Deep Research допоміг йому отримати дозволи на видалення дерева з двору. Або, наприклад, підрахунок вартості великого будівельного проекту.
“Сьогодні це лише v0 продукту, але вже вражає. І додам, що Deep Research інтегровано з audio- переглядами з notebook LM, – і тепер ви можете перетворити дослідницьку роботу в аудіо та ставити інтерактивні запитання, ніби слухаєте власний подкаст.”
Далі ми занурилися у світ Notebook LM, ще одного дивовижного інструменту Google. Лоґан описує його як інтелектуального помічника для знань, для навчання або для оживлення контенту.
“Уявіть, у вас є нудний посібник з налаштування пилососа. Ви завантажуєте його в NotebookLM, і він генерує резюме, гайд, навчальний посібник, або навіть розмову у стилі подкасту. Можна переривати розмову, ставити питання, просити роз’яснень.”, – захоплено розповідає Лоґан.
Він ділиться своїм досвідом використання NotebookLM: “Я вводжу робочі документи, створюю аудіо-огляди та слухаю їх під час прогулянки з собаками”.
Особисто мені дуже сподобався інструмент Learn About.
Як сказала Ліла Гарт, Learn About допомагає зорієнтуватися в тому, про що ви не знаєте, навіть не знаєте, що саме потрібно запитувати. Це як структурований навчальний процес, який полегшує розуміння.
Усі ці три інструменти пропонують унікальні можливості для навчання та пізнання. Але як їх поєднати? Як зрозуміти намір користувача та запропонувати відповідний продукт?
Лоґан визнає, що це складне завдання, яке стоїть перед сьогоднішніми компаніями.
“На поверхні все виглядає просто. А, насправді, саме ці проблеми – інженерні та продуктові – є головним викликом десятиліття. Персоналізація – ключ до успіху. Маючи контекст про користувача, розуміючи його інтереси та досвід. Тільки так можна надати правильний продукт”, – каже Лоґан.
Ми торкнулися питання об’єднання цих інструментів. Чи планує Google створити єдиний інтерфейс для AI?
“Gemini стає універсальним місцем для доступу до багатьох функцій”, – відповідає Лоґан. “Ми поступово інтегруємо досвід Learn About в Gemini. Але є різні сценарії використання. Наприклад, AI Studio – це портал для розробників. Він дає доступ до моделей та інструментів для розробки. Для Google AI Studio не є щоденним помічником.
За словами Лоґана, для розробників відкривається шлях до доступу API Gemini Studio та доступу до найновіших можливостей.
На завершення ми звернулися до теми графічної генерації, яка, на думку Лоґана, є трансформаційною.
“Ми запустили Gemini 2.0 у грудні. А нещодавно розширили можливість створення та редагування зображень для всіх розробників. Тепер можна редагувати вже існуючі фотографії, додаючи ефекти, об’єднуючи картинки”, – зауважив Лоґан.
“Моделі дозволяють робити речі, які раніше були доступні лише обмеженій кількості професіоналів. Сьогодні будь-яка людина може редагувати зображення за допомогою простого текстового запиту. Це неймовірно. Раніше кодування було доступним лише для розробників, тепер будь-хто може створити код. Те саме з графікою.
Ця розмова з Лоґаном Патріком стала для мене нагадуванням про те, як швидко змінюється світ. AI більше не є чимось віддаленим. Це інструмент, який може допомогти кожному з нас навчитись, створити, та поділитися своїми ідеями. Google, з його широким спектром інструментів, має всі шанси, щоб зробити цей світ дійсно інклюзивним та відкритим. Як каже Лоґан: “AI змінює все”. І, я думаю, саме цього ми всі зараз і прагнемо.