Gemini 3: Маркетинг чи справжній прорив? Розбираємося, поки світ захоплюється цифрами

    Привіт! Сідайте зручніше, адже зараз буде гаряча кава та ще гарячіша розмова. Останні кілька днів у світі технологій – це як ранок, коли знаходиш на порозі посилку з довгоочікуваною іграшкою. Тільки замість іграшки – новина від Google: Gemini 3! І це не просто новина, це – breaking news. Генеративний ШІ, що обіцяє змінити все.

    На обкладинках, у заголовках, у кожному куточку мережі – цифри, графіки, порівняння. Gemini 3, як стверджують, “розриває” всі попередні моделі. Його бенчмарки (тести, що показують, наскільки розумний ШІ) – це чиста магія. Деякі стрибки в показниках просто шалені! Здається, ще трохи, і ми будемо будувати космічні станції, просто попросивши комп’ютер.

    Дивлячись на ці ідеальні, вилизані криві на графіках, у мене виникає знайоме відчуття. Це як дивитися на рекламний ролик нового смартфона: все блищить, все літає, а ти вже уявляєш, як зміниться життя. Але коли береш його до рук… ну, ви розумієте.

    То що ж насправді криється за цими вражаючими цифрами? Чи справді Gemini 3 – це той самий “наступний великий прорив”, чи просто черговий стрибок у гонитві за бенчмарками? Моя місія сьогодні – розплутати цей клубок хайпу, побачити реальну картину та знайти відповіді, які допоможуть зрозуміти, чи варто зараз кидати все і бігти тестувати новинку.

    Не будемо будувати лендінги в антигравітації! Але зануримося у світ коду, поговоримо про проблеми, які виникають, коли намагаємося застосувати ці потужні моделі в реальному житті, і знайдемо рішення, які, можливо, ще не стали мейнстрімом. Готові? Тоді поїхали!


    Розділ 1: Коли цифри брешуть, або чому бенчмарки – не завжди правда життя

    Це як на базарі. Продавець хвалить товар: “Найсолодший кавун!”, “Найсоковитіші помідори!”. І часто це правда. Але буває, купуєш, приходиш додому, а він виявляється водянистим або кислуватим. З великими мовними моделями (LLMs), як Google Gemini 3, ситуація дуже схожа.

    Нам показують бенчмарки, які виглядають… ну, дуже привабливо. Уявіть графік, де крива можливостей LLMs різко летить вгору останніми місяцями та роками. Це виглядає як справжня революція, правда? Пам’ятаєте, колись дивувалися, коли комп’ютер міг зіграти в шахи? А зараз він пише вірші, створює картини і навіть допомагає писати код.

    Але є нюанс. Дуже великий нюанс. Навіть дослідження від Google показують, що, паралельно з цим “вибухом” можливостей LLMs, продуктивність розробників залишається на стабільно низькому рівні. Як це так?

    “Але ж Gemini 3 – модель справді вражаюча!” – скажуть скептики. І вони будуть праві. Це не перший-ліпший ШІ, його можливості вражають, навіть якщо ставитися до цих бенчмарків з обережністю. Проблема не в моделі, а в тому, що ці бенчмарки часто виглядають як маркетингові матеріали.

    Це не дивно. Великі мовні моделі все більше тренуються саме на таких завданнях – на таких тестах. Їх “вчать” проходити ці “іспити” якнайкраще. Це як студент, який замість того, щоб глибоко зрозуміти матеріал, просто зазубрює відповіді на типові запитання до екзамену. Він отримає високий бал, але чи стане він кваліфікованим фахівцем?

    І ось постає головне питання: як нам, простим користувачам, розробникам, креативникам, зрозуміти, чи LLM – це наступний великий прорив, чи просто яскрава обгортка?

    На жаль, універсальної відповіді поки немає. Найкращий спосіб – спробувати самому. Але це довго. Або чекати. Чекати, поки мільйони людей спробують, обговорять, поділяться досвідом, і сформується спільна думка. Наприклад, зараз Claude Sonnet 4.5 вважають однією з найкращих моделей для кодингу (але це було до появи Gemini 3). Але чи можна повністю довіряти навіть цій “загальній думці”? Це не те, що можна оцінити одразу.

    Виходить, що знову повертаємося до тих самих бенчмарків, які, як бачимо, не завжди відображають реальність. Це трохи схоже на порочне коло, правда? Але… є вихід. Нещодавно з’явилися нові підходи до оцінки LLMs, і саме про них сьогодні й поговоримо: чітко про проблеми та рішення.

    Цікаво знати: Чи замислювалися ви, чому деякі програми здаються набагато “розумнішими”, ніж інші, навіть якщо вони базуються на одній і тій самій моделі ШІ? Секрет часто криється не лише в моделі, а й у додаткових “інструментах” та “системах”, які навколо неї побудовані.


    Розділ 2: Коли інструменти важливіші за сам інструмент: історія про “Antigravity” та Gemini 3

    Гаразд, давайте будемо чесними. Говорячи про оцінку LLMs, найкраще зосередитися на конкретній сфері. Для мене, як для людини, яка багато працює з кодом, це, безумовно, AI-кодинг. А тут ще й такий цікавий гравець, як Antigravity – нова AI IDE (середовище для розробки програм) від Google, яка використовує Gemini 3. Звучить як мрія будь-якого програміста, правда?

    І ось ми підходимо до нашої головної проблеми: зліва на графіку – вражаючий ріст можливостей LLMs. А справа – продуктивність розробників, яка, здавалося б, стоїть на місці. Як це можливо, що зі зростанням потужності ШІ, реальна ефективність людей не зростає? Це ж парадокс!

    Але, знаєте, я люблю перевіряти все на власному досвіді. І можу сказати: результати, які отримую останнім часом завдяки AI-асистентам у кодингу, справді “вибухові”. Я багато про це розповідаю на своєму YouTube-каналі, в курсі про “Агентурний кодинг”. Але чи це виключно заслуга “мозку” LLM, чи, можливо, це заслуга моїх інструментів та систем, які навчився будувати навколо цієї моделі?

    Заглянемо в минуле. Пам’ятаєте, на початку чи наприкінці минулого року, я активно використовував… здається, Windsurf (назва може бути неточною, бо тоді все розвивалося блискавично). Там я працював з Claude Sonnet 3.5. Це модель, яка по суті вже чотири покоління тому. Вдумайтеся! Чотири покоління тому! Це як порівнювати старенький “Запорожець” з останнім електрокаром.

    Зараз використовую Claude code з Sonnet 4.5, і результати кращі. Але мене цікавить: якби зараз взяв ту стару Sonnet 3.5 і “запхав” її у свої сучасні інструменти та AI-систему, наскільки б відрізнялися результати? Чи сильно б вони відрізнялися від того, що маю зараз? Адже навіть тоді Sonnet 3.5 вже допомагала мені працювати з шаленою швидкістю порівняно з тим, як я був без будь-якої AI-допомоги.

    Це наштовхує на думку: чи не здаються нам LLMs набагато потужнішими, тому що ми вдосконалили інструменти навколо них, а насправді їхній “внутрішній розум” розвивається значно повільніше?

    А тепер хочу запитати вас, мої читачі: Як думаєте? Чи багато залежить від самих моделей, а скільки – від того, як ми їх використовуємо? Мені справді цікаво знати вашу думку, бо мені самому важко дати остаточну відповідь. Щоб це перевірити, потрібно було б повернутися до Sonnet 3.5 і пройти всі ті складні завдання, які вирішую зараз. А це, як ви розумієте, непросто.

    І саме в цьому вся проблема: ми покладаємося на бенчмарки, бо альтернатива – надзвичайно складно.


    Розділ 3: Antigravity: коли ШІ бачить і діє, а не тільки “думає”

    Наша основна проблема: LLMs стають потужнішими, але наскільки? І чи не саме ті інструменти, які додаємо поверх них, роблять головну різницю? Antigravity від Google – чудове місце, щоб це проілюструвати.

    Це їхня нова AI IDE, яка за замовчуванням використовує Gemini 3. Gemini 3 справді вражає, коли йдеться про дизайн та створення фронтенду (частини сайту, яку бачить користувач). Випробував її протягом вихідних, і вона здається потужнішою, ніж, скажімо, Claude Sonnet 4.5. Але чи це заслуга моделі, чи це знову чудові можливості, які інтегровані в Antigravity?

    Ось що є в Antigravity і що мене вразило – інтеграція з Google Chrome. Багато хто з вас, напевно, скаже: “Ну, браузер і браузер, що тут такого?”. А ось що: завдяки цій інтеграції, AI-асистент може перевіряти вебсайти. Він tự động відкриває свій браузер, самостійно переміщається по сайту, перевіряє кнопки, сторінки, і, що найважливіше, візуально валідує речі. Це надзвичайно потужно!

    Для демонстрації я попросив проаналізувати мій код. ШІ зрозумів, як запустити фронтенд, як проскролити сторінку, і навіть запропонував варіанти, як зробити сайт кращим. Це все з використанням візійних можливостей Gemini 3! Працювало неймовірно.

    Більше того, можна спостерігати за його роботою. Уявіть: бачите скріншот, який зробив ШІ, переглядаєте відео, як він “гуляє” по вашому сайту, натискає на кнопки, переходить між сторінками. Це захоплює!

    Звісно, не обійшлося без дрібниць. Під час роботи з Gemini 3 в Antigravity кілька разів стикався з помилкою “overload error”. Іноді доводилося повторювати запит. Але це не скасовує головного: додана нова можливість, яка значно покращує роботу з фронтендом та дизайном.

    Можу показати це наживо. Даю команду відвідати мій сайт. Можна навіть попросити його запустити сам сайт. Але неймовірно – спостерігати, як він самостійно пересувається по сайту. Хоча такі можливості вже існують у Playright чи Stage Hand MCP. Але тут це виглядає… оптимізовано саме для Antigravity. І те, що це вбудовано, це просто фантастика!

    Зверніть увагу, як він чекає 5 секунд перед знімком екрана, щоб переконатися, що сторінка повністю завантажилася. Це, здається, “запечене” в системний запит для цієї інтеграції з Chrome. Дуже круто! Ось бачите, як він “гуляє” по сайту. Повертаємося до IDE, і ось скріншот, ось відео. Це все відбувається прямо зараз.

    Загалом, Antigravity – це чудова AI IDE. Але їхній “Agent manager mode” – щось особливе. Тут код відходить на другий план. Просто розмовляєте з вашим coding assistant. Можна запускати завдання паралельно в різних репозиторіях, бачити зміни в коді, додавати коментарі по рядках. Це фактично традиційний code review, але з AI. Дуже круто.

    Гумористичне застереження: Не дивуйтеся, якщо Antigravity почне пропонувати каву або застібати ґудзики на сорочці. З такими можливостями – це наступний крок!

    А як ви думаєте, чи потрібні такі “розумні” IDE, чи краще мати простіші інструменти, але повний контроль над процесом? Напишіть свою думку в коментарях!


    Розділ 4: ARC-AGI 2: коли навіть бенчмарки стають серйознішими

    Повертаючись до бенчмарків. Незважаючи на всі застереження, мушу визнати: Gemini 3 – справді потужна LLM. Навіть якщо ставлюся до деяких тестів з іронією, результати, які Gemini 3 показав у тесті ARC-AGI 2 – вражають.

    Чому цей тест такий особливий? Тому що ARC-AGI 2 – це не просто розпізнавання патернів. Це завдання, яке вимагає глибокого абстрактного мислення. ШІ отримує завдання, де потрібно зрозуміти логіку, застосувати її в новій, невідомій ситуації, і знайти рішення. Це вже наближається до справжнього “розуміння”, а не просто сліпого виконання команд.

    Gemini 3 справді “легітимний”. Він показав себе добре. Але, як уже казав, тестуючи його сам, бачу, наскільки багато інструментів та систем додано поверх базової моделі. Саме тому, навіть після вихідних тестування, не можу сказати, наскільки потужний Gemini 3 сам по собі.

    І ось підходимо до рішення, яке хочу представити. Це більш високорівнева ідея, а також конкретний інструмент – Clinebench.

    Уявіть: а що, якби існував величезний набір публічно доступних репозиторіїв, де можна було б бачити, як ваш код змінюється з часом, як справжні інженери працюють над реальними завданнями за допомогою AI-асистентів? О, зачекайте… це ж і є відкритий код, особливо на GitHub!

    Саме це і використовує Cline, зокрема Clinebench. Я не пов’язаний з ними жодним чином, але щиро вважаю, що вони стоять на передовій оцінки LLMs, особливо коли йдеться про “агентурний кодинг” (ШІ діє як самостійний агент, вирішуючи задачі).

    Проблема, яку вони описують на початку своєї статті, – саме те, про що говорю сьогодні: наші бенчмарки не відображають, як ми насправді використовуємо LLMs у реальному світі. Особливо в кодингу. Це все зводиться до тестів типу “LeetCode”, де треба, наприклад, обернути зв’язаний список. Це, звісно, корисно, але це не вся картина. І це стосується не тільки кодингу, а й будь-якої сфери, де використовуємо LLMs.


    Розділ 5: Clinebench: реальні завдання для реальних інженерів

    Отже, що ж робить Clinebench? Три основні цілі:

    1. Надійність оцінки: Замість синтетичних бенчмарків, ми тепер працюємо над реальними інженерними завданнями. Використовуючи Cline, перший пріоритет – це ваша приватність. Ви повинні явно надати згоду. Cline відстежує ваші команди (prompts) та те, як ви працюєте над реалізацією завдань у ваших відкритих репозиторіях. Чому це важливо? Для отримання реальних інженерних завдань для оцінки.

    2. Публікація та стандартизація: Щоб оцінки були надійними, потрібно працювати в контрольованих середовищах. Cline стандартизує та публікує ці середовища. Це також дозволяє документувати прогалини в системах і вчитися краще використовувати AI-асистентів під час створення таких оцінок.

    3. Тренувальні дані для досліджень: Все це стане тренувальними даними для досліджень та подальшого доналаштування моделей. Звісно, тема тренувальних даних завжди лякає з точки зору приватності, але Cline це враховує. Це те, що ви вибираєте добровільно, і це стосується тільки відкритих репозиторіїв.

    Clinebench розроблено дуже інтелектуально. Для реального інженерного завдання потрібні три основні елементи:

    • Початковий стан репозиторію (snapshot).
    • Команда/завдання (prompt).
    • Кінцевий результат – код, який був внесений до відкритого репозиторію (end state/committed code).

    Сподіваюся, що початковий prompt може бути розширений до багатьох запитів, якщо запускаєте цілу систему перед комітом. Але суть проста: початковий стан, процес, кінцевий стан. Це все, що потрібно для оцінки.

    Звісно, на перший погляд це просто, але під капотом Cline має вирішити багато складних завдань. Інженери використовують різні інструменти та системи, працюючи з AI-асистентами. І це потрібно врахувати. Можливо, один інженер отримує кращі результати з Gemini 3 просто тому, що має кращий процес, ніж хтось, хто використовує Claude Sonnet 4.5. Але якщо цей процес задокументований, і є певний стандарт для цих “агентурних” інженерних середовищ, то це буде надзвичайно потужно. Це дасть реальні дані для розуміння, яку LLM варто використовувати для наших проєктів.

    Саме в цьому суть відео: це напрямок, куди рухаємося, щоб ви могли краще розуміти, які інструменти та LLM використовувати для реалізації ваших ідей.

    Важливо: Clinebench може не стати стандартом для оцінки AI-кодингу. Суть не в конкретній компанії чи інструменті, а в тому, що потрібно рухатися до оцінки на реальних завданнях для наших LLMs.


    Висновок: Майбутнє оцінки LLM – у реальних завданнях

    Отож, ми пройшли довгий шлях від захопливих бенчмарків Gemini 3 до глибинних проблем оцінки LLMs. Ми побачили, як Antigravity демонструє, що потужність інструментів може затьмарити можливості самої моделі. Торкнулися серйозних викликів, які стоять перед розробниками, коли мова йде про реальне застосування.

    Але знаєте, що найголовніше? Ми знайшли напрямок. Майбутнє оцінки LLMs, особливо для таких складних завдань, як кодинг, лежить не в сухих цифрах бенчмарків, а в реальних, живих завданнях, які виконують справжні люди. Проєкти на кшталт Clinebench – це не просто чергова технологія, це нова філософія оцінки. Це про те, щоб побачити, як ШІ працює в реальному світі, а не тільки в лабораторних умовах.

    Що далі?

    1. Критично оцінюйте бенчмарки: Не вірте всьому, що бачите на графіках. Шукайте реальні приклади використання, історії з життя.
    2. Експериментуйте з інструментами: Якщо ви розробник, спробуйте нові AI IDE, як Antigravity. Подивіться, як вони змінюють вашу продуктивність.
    3. Підтримуйте ініціативи на кшталт Clinebench: Якщо ви працюєте з відкритим кодом, можливо, ви теж зможете внести свій вклад у створення більш надійних методів оцінки LLMs.
    4. Навчайтеся та адаптуйтеся: Світ AI змінюється блискавично. Те, що актуальне сьогодні, завтра вже може бути минулим. Важливо постійно вчитися і розуміти, як ці нові інструменти можуть допомогти саме вам.

    У підсумку, Gemini 3 – це, безумовно, вражаюча модель. Але її справжня цінність розкриється тоді, коли ми навчимося правильно її оцінювати, розуміючи, що за красивими цифрами стоїть складний всесвіт інструментів, систем та реальних завдань.

    І хочу вам запропонувати щось особливе. 16 листопада о 17:00 за Києвом проведу прямий ефір, де розіграю моєї нової системи для “агентурного кодингу” – це той самий інструмент, про який згадував. Це буде ексклюзивно під час трансляції, тож приєднуйтеся! Посилання ви знайдете нижче.

    Якщо вам сподобалося це відео і ви хочете більше контенту про AI-кодинг, не забудьте поставити лайк і підписатися на мій канал. До зустрічі на трансляції 16 листопада! Будемо разом розбиратися, як зробити AI своїм надійним помічником у світі коду. До зустрічі!

    Поділитися.
    0 0 голоси
    Рейтинг статті
    Підписатися
    Сповістити про
    guest
    0 Коментарі
    Найстаріші
    Найновіше Найбільше голосів
    Зворотній зв'язок в режимі реального часу
    Переглянути всі коментарі
    0
    Буду рада вашим думкам, прокоментуйте.x