AI-новини: OpenAI змінює плани, Google тисне ціною, та з’являються нові моделі для генерації відео
Привіт всім ентузіастам штучного інтелекту! Сьогодні ми зануримось у вир останніх новин з AI-індустрії, де, як відомо, життя не спить ні на мить. Готові? Починаймо!
OpenAI змінює курс: нас чекають 03s та 04 Mini, але що з GPT5?
Сем Альтман, генеральний директор OpenAI, здивував усіх своїм твітом: “Плани змінилися! Ми випустимо 03s та 04 Mini, ймовірно, за пару тижнів, а потім GPT5 за кілька місяців”. Це суттєво відрізняється від їхніх попередніх заяв. Пам’ятаєте лютий, коли OpenAI навіть не збиралися випускати 03 як окрему модель, плануючи інтегрувати її в GPT5?
Що ж, тепер ми отримаємо окремі 03s та 04 Mini. Особисто я в захваті від 04 Mini – цікаво, наскільки далеко вони змогли просунути показники міркувань у цих міні-моделях. І все це вже у середині квітня!
Альтман пояснює ці зміни тим, що вони зможуть зробити GPT5 значно кращою, ніж планували спочатку. Хоча він не наводить конкретних деталей, ми беремо його слово на віру. Виявляється, інтегрувати всі їхні технології в один GPT5-пакет було складніше, ніж вони думали. Крім того, вони хочуть забезпечити достатню пропускну здатність для задоволення безпрецедентного попиту.
Мене особисто трохи насторожувала ідея об’єднати все в один GPT5, який сам обирає найкращі моделі для кожного випадку. Я все ще віддаю перевагу самостійно обирати моделі для різних завдань. На мою думку, ніхто, навіть OpenAI, не може знати найкращу модель для кожного окремого випадку.
Проте, OpenAI покращили те, що вони демонстрували для 03, що не може не радувати. Можливо, ці зміни – частково реакція на Google, які, схоже, перехоплюють лідерство з великими мовними моделями.
Google тисне ціною: Gemini 2.5 Pro стає доступною та привабливою
Gemini 2.5 Pro переходить у публічний попередній перегляд в AI Studio з вищими лімітами швидкості та доступними цінами. Ми вже давно обговорювали 2.5 Pro на цьому каналі – вона демонструє чудові результати в кодуванні та загальній інтелектуальності (особливо вражає контекстне вікно на мільйон токенів). З нею пов’язано багато позитивних очікувань, і я думаю, що OpenAI трохи переживає з цього приводу.
Зрозумілість щодо цін: з великими вхідними даними (понад 200 000 токенів) ми маємо $1.25 за мільйон токенів на вхід і $10 за мільйон токенів на вихід. Це все ще дорожче, ніж open-source моделі, але ми говоримо про високоінтелектуальну модель найвищого рівня. Open-source моделі зараз не перевершують Gemini 2.5 Pro.
Вхідні дані до 200 000 токенів коштують дорожче: $2.50 за мільйон токенів на вхід і $15 за мільйон токенів на вихід. Тобто, чим більший об’єм подаєте, тим менше платите. У будь-якому разі, це дешевше, ніж у конкурентів, і це найважливіше.
GPT-4 Omni (стандартна модель для Chat GPT) коштує дорожче, ніж Gemini 2.5 Pro, з тією ж ціною на вхід і трохи дешевшою на вихід. А Sonnet 3.7 ще дорожча, хоча багато тестерів стверджують, що вона не зрівняється з Gemini 2.5 Pro, особливо в кодуванні. GPT-0, ще дорожча модель OpenAI, значно перевершує ціни Google: $15 за мільйон токенів на вхід і $60 за мільйон токенів на вихід.
Google робить ставку на недорогий API та дозволяє користувачам безкоштовно тестувати моделі. Я не заплатив жодної копійки, щоб випробувати останні розробки Google. Це змушує задуматись. Google може виграти у ціновій війні, принаймні, у короткостроковій перспективі. Побачимо, чи зможуть 03s та 04 Mini легко перемогти Gemini 2.5 Pro. Навіть якщо моделі OpenAI будуть дорожчими, люди можуть віддати перевагу вищій інтелектуальності. Але якщо показники будуть приблизно однаковими з Gemini 2.5 Pro, вибір на користь Google буде очевидним.
Gemini V2 з’являється у Gemini Advanced: перші враження від генерації відео
V2 також виходить для Gemini. З’явились побоювання, чи не буде це жахливою турбо-моделлю, яку ми отримали в YouTube Shorts. На щастя, у мене є V2 в Gemini Advanced, тож давайте спробуємо!
Перша проба: “У сповільненій зйомці лисиця стрибає по снігу”. V2 на диво швидко генерує відео з високою якістю. Видно вплив тренувальних даних YouTube – типова зйомка GoPro. Виглядає дуже реалістично!
Ще складніше: “Фізична симуляція: з неба падає желе на 3D-анімованих персонажів, які тримають парасольки в місті з морозива”. Є і 3D-персонажі, і желе, що падає з неба. Персонажі виглядають доволі реалістично. Місто з морозива відповідає опису.
А тепер щось ще складніше: “Камера рухається до лівого боку червоної Miata на шосе, а потім зупиняється, показуючи задню частину автомобіля. Потім машина різко стартує, залишаючи за собою шлейф диму та вогню в кінематографічній манері”. Відео згенероване. Непогано! Машина дійсно залишає шлейф диму та вогню. Цілком гідно. Вражає узгодженість та здатність моделі розуміти запити.
Знову використаємо YouTube для навчання AI-моделей генерації відео?
Останній запит: “Камера слідує за милим роботом, який летить на ракеті в космосі. Ракета приземляється на Місяць, і робот виходить з ракети. Милий 3D-анімаційний стиль”. Маємо робота на ракеті, який приземляється на Місяць і вибігає. Перша половина гарна, але далі робот починає бігати по порожнечі. Друга частина, де робот стрибає по Місяцю, виглядає досить добре.
В цілому враження позитивні: V2 – сильний генератор відео, кращий, ніж модель з YouTube Shorts.
LTX Studio та Llama 4: ще більше новин з AI-простору
LTX Studio оптимізує свою модель LTXV Distilled для швидкості та чіткості. Вони також переробили модель збільшення масштабу відео з меншою кількістю артефактів та більш чіткими деталями.
Llama 4, ймовірно, вийде цього місяця. Meta стикається з проблемами продуктивності: модель не демонструє очікуваних результатів у міркуваннях, математиці та людських розмовах. Конкуренція шалена, як серед моделей з закритим кодом, так і серед open-source рішень. Llama 4 переходить на Mixture of Experts. Модель буде мультимодальною, з міркуваннями та різними варіантами для локального запуску. Сподіваємось, Meta зробить її open-source, як і раніше. Затримка та зміна технік після успіху DeepSeek викликають певне занепокоєння.
Idog V3 та Midjourney V7: боротьба за лідерство в генерації зображень
Idog V3 офіційно з’явився на Artificial Analysis Image Arena, покращивши результати попередньої версії. ReCraft (спонсор сьогоднішнього відео) також у верхній частині рейтингу.
Midjourney V7 нарешті тут! Нік Сен-П’єр провів чудовий порівняльний аналіз.
Перший приклад: “Молода індійська жінка з темним волоссям у відкритому хвості та чорній куртці стоїть у кампусі університету, дивлячись прямо в камеру. Зображення має естетику кінокадру 1990-х років із великим портретом у сонячний день”. V7 демонструє кращу узгодженість, але не має естетики кінокадру 1990-х років.
Другий приклад: “Велична сипуха, що сидить на стародавньому вкритому мохом дереві, м’яке світло, густе листя, чарівна та неземна атмосфера, фотореалістичний стиль з увагою до деталей пір’я та текстур”. V7 знову перемагає в узгодженості, зберігаючи при цьому чарівність та фотореалізм.
Третій приклад: “Рука людини вказує на вікно літака, яке видно зсередини, з видимим профілем крила”. V7 виглядає як реальне зображення, а V6 – ні.
Крейг Кесс поділився чесним оглядом Midjourney V7: естетика – 5 з 5, відповідність запитам – 2 з 5 (порівняно з іншими генераторами зображень), дрібні деталі – 3 з 5, текст – все ще позаду конкурентів.
Висновок: Midjourney – король естетики, але в інших аспектах програє конкурентам.
Куди ми рухаємось? Підсумки та очікування
Місяць обіцяє бути насиченим подіями: OpenAI планує великі анонси, Llama 4 має вийти найближчим часом. Не забуваймо про безперервні інновації в AI-індустрії.
Дякую за увагу! Сподіваюсь, цей огляд був для вас корисним. До зустрічі у наступному відео!