Буря вже близько: огляд найгарячіших новин світу AI

Чи готові ви до бурі? AI-світ затамував подих, а Google готує козирний туз!

Знаєте, світ штучного інтелекту – це схоже на американські гірки: постійний рух, нові відкриття. Щотижня з’являються новинки, оновлення, гучні заяви. Ще вчора ми обговорювали одну модель, а сьогодні вже всі говорять про наступну. Отож, поки ми смакуємо каву та невимушено говоримо про технології, в “кухні” AI-гігантів кипить робота. І, здається, за цим затишшям перед бурею ховається щось справді грандіозне. Google натякає на вихід Gemini 3, а разом з ним, можливо, і Nano Banana 2.0. Кажуть, що це буде цьогоріч. Як завжди, я люблю зазирнути за куліси, розгледіти ті маленькі, але такі важливі оновлення, які часто губляться серед великих анонсів. Тож, пристебніть паски – ми вирушаємо у захопливу подорож найновішими досягненнями штучного інтелекту!

ChatGPT: коли навіть найрозумніший помічник потребує уточнень

Пам’ятаєте, як, ставлячи питання другові, чуєте відповідь і розумієте: “Ой, я ж забув найголовніше!”. І доводиться починати розмову знову або намагатися втиснути свою думку в те, що вже сказали? З ChatGPT було схоже. Особливо, коли справа стосувалася глибоких досліджень або складних запитів. Ви надсилали запит, AI починав думати, а ви раптом: “Стоп! Я забув уточнити ось це! А якщо ось так?”. Отже, все починалося з нуля, втрачаючи весь прогрес.

Але, схоже, OpenAI почули наші прохання. Відтепер у ChatGPT з’явилася можливість переривати тривалі запити та додавати новий контекст без потреби перезавантажувати весь діалог. Уявіть: ви занурилися в дослідження, AI генерує відповідь, і тут ви розумієте: “Ага, треба згадати про ось цей нюанс!”. І все, ви натискаєте кнопку “стоп”, додаєте своє уточнення, і модель адаптується. Це просто фантастика!

Я вже спробував це у моєму ChatGPT Plus. Коли AI починає “думати” (а це може тривати довго!), з’являються символи для паузи та оновлення. Натискаєш – і вуаля! Можна додати контекст, наприклад: “І врахуй, будь ласка, останні дослідження в галузі квантової фізики”. Це настільки зручно, що дивуюся, як ми раніше жили без цього. Сподіваюся, ця функція буде доступна не лише для Pro-користувачів, бо це дійсно революційно!

Sora: соціальна мережа для творців відео?

Є такі продукти, які з’являються ніби з нізвідки і одразу стають гарячою темою. Sora від OpenAI – саме така. Вони додали щось, що мене, зізнаюся, здивувало – лідерборди. Тепер ви можете побачити, хто найкрутіший у світі Sora за певний день: хто створив найпопулярніше “cameo”, найкращий ремікс, та які персонажі з’являються. Бачу знайомі обличчя: Jake Paul і Ricky Berwick лідирують у Cameo, а в реміксах – Fancy Sun та Cosmic Sky.

Навіщо це все? Думаю, OpenAI намагається стимулювати конкуренцію, творчість і, зрештою, більше використання самої платформи. Особливо зараз, коли доступ до Sora розширився на інші країни, і нарешті вийшов додаток для Android. А ще, ви можете побачити, скільки відеогенерацій вам залишилося, і коли їх отримаєте. Якщо ж раптом закінчаться безкоштовні “спроби”, можна просто купити більше: 10 доларів за 25 генерацій, 20 – за 50, 40 – за 100. Особисто я радий, що є така зручна опція просто докупити ресурсів. Хоча, здається, вони стають трохи щедрішими на безкоштовні генерації. Sora – це справді цікавий продукт, який запалив дискусію про AI-відео. Чекаю, чим Google відповість своїм V4. “Тиск народжує діаманти”, як то кажуть!

Stability AI vs. Getty Images: майже завершена битва титанів

А тепер до новин, які можуть здатися сухими, але мають величезне значення для всіх розробників AI. Stability AI, творці Stable Diffusion, майже виграли свою судову справу проти Getty Images. Суд відхилив позови про вторинне порушення авторських прав стосовно навчальних даних Stable Diffusion. Тобто, суд сказав, що моделі не зберігають копії зображень, а лише “вивчають” їхні властивості. А це величезний крок для галузі!

Це означає, що AI-моделі не “крадуть” зображення, а засвоюють закономірності, які роблять їх унікальними. Звісно, Getty Images виграли частково – щодо синтетичних водяних знаків у старих версіях моделей. Це перемога з присмаком гіркоти для Getty, але для AI-розробників – справжній промінь світла. Особливо для тих компаній, які вже ведуть подібні судові процеси. Велике спасибі Cole Tragoskis за цю цінну інформацію!

Kimi K2 Thinking: китайський “супергерой” чи новий стандарт?

Багато хто з вас чекав на цю новину. З Китаю прилетіла справжня бомба – Kimi K2 Thinking. І це не просто чергова модель, це справжній звір, який, за певними тестами, перевершує GPT-5 та Claude 4.5 Sonnet, коштуючи при цьому значно дешевше за Sonnet.

Дивіться самі: Kimi K2 склав останній тест Humanity’s Exam (без інструментів, чисто текстове мислення) на 55 балів! GPT-5 теж показав себе чудово, а Claude 4.5 Sonnet трохи відстав. На тесті SEAL Zero (збір інформації) вони йдуть майже впритул, але Kimi знову виривається вперед. Єдине, в чому Kimi трохи відстає – це багатомовність, де Anthropic модель виявилася сильнішою.

Але найцікавіше – це код! На Live Codebench GPT-5 бере корону, але Kimi K2 майже одразу за ним. У тестах SWE (Software Engineering) GPT-5 знову випереджає, але Kimi майже наздоганяє, залишаючи Anthropic позаду. Це просто неймовірно! А найкрутіше те, що це відкрита модель (!), і її ваги доступні на Hugging Face. Це означає, що спільнота зможе адаптувати її для роботи на звичайних комп’ютерах, а будь-яка AI-компанія зможе вивчити, як вона працює. Moonshot AI, справді, є чим пишатися. Хоча, я все ж очікую, що Gemini 3 покаже себе ще сильніше.

AI в Minecraft: чи скоро ваші блоки будуватимуть віртуальні будівельники?

Іноді хочеться відволіктися від серйозних розмов і подивитися на щось більш приземлене, але не менш вражаюче. І ось, проєкт від UV codes показує нам AI-агентів, які працюють прямо всередині Minecraft. Так, ви можете спілкуватися з ними в чаті, використовуючи прості текстові команди. І ці агенти можуть самостійно будувати будинки!

Я бачив, як вони копіюють один одного, створюють щось цілісне, хоч і трохи хаотичне. А ще вони б’ються з монстрами та добувають ресурси. Шкода, що поки немає відкритого коду, щоб спробувати це самостійно – поки що це лише демо. Але уявіть: грати в Survival Mode з такими помічниками! Або, можливо, це початок для більш реалістичних NPC, яких можна зустріти у віртуальному світі. Хтось може сказати, що це “чітерство”, але це ж demo tech! Це показує потенціал AI, який може оживити відеоігри.

Inworld AI: коли ваш NPC заговорить голосом, який ви не відрізните від людського

І тут ми плавно переходимо до ще однієї компанії, яка працює над AI-NPC для ігор – Inworld AI. Вони зазвичай співпрацюють з геймдевами та розробниками ігрових двигунів, як Unreal чи Unity. Але нещодавно вони показали нову текст-до-модель мови, яка очолила рейтинг Artificial Analysis. І коштує всього 10 доларів за 10 мільйонів символів! Це супер ефективно!

Їхній TTS (Text-to-Speech) значно випереджає таких конкурентів, як MiniMax, OpenAI та ElevenLabs. І, що найважливіше, ви можете спробувати це вже зараз! Є кілька голосів, і вони вміють передавати емоції. Ось послухайте:

“Foolish mortal. You dare to enter my realm? Your courage will be your downfall. Soon you will learn that no one escapes from here.“

А тепер з емоціями:

“What? You bought a slow roast barbecue? Is that a rack of ribs? Well, come right in then. You can put that right over there. Let me get my famous sauce. Make yourselves at home.“

Це, погодьтеся, звучить дуже природно. Ідеально підходить для відеоігор.

А ось ще один приклад:

“I remember the days when you still could trust a video. Who knows what I generated anymore?“

Це вражає. Якщо ви створюєте відеоігри або хочете мати персонажів, які звучать по-справжньому, Inworld AI для вас.

Gemini 3: “Сходження Протоколу” та цифрові скульптури

А тепер – головне. Gemini 3. Демонстрації стають все більш вражаючими, витоки – частішими. Це означає, що реліз вже близько! Одна з демонстрацій – “Ascension Protocol”, створена повністю Gemini 3. І це не музичний генератор, це LLM, який використовував програмне забезпечення для створення музики з нуля. Звучить як фортепіанна мелодія, і якби ви мені сказали, що це написав досвідчений композитор, я б повірив.

Але це ще не все! Інший проєкт від Gemini 3 – це 3D-планетарний візуалізатор. І це зроблено всього за 2 хвилини! Ви можете налаштовувати все: топологію, атмосферу, кольори, щільність, навіть зробити гори аж до самих зірок. І все це – менш ніж 519 рядків коду! Це показує, наскільки ефективним може бути Gemini 3.

І на десерт: Gemini 3 може симулювати цілі ігрові консолі! Так, це поки що примітивна версія Nintendo Switch, але вона здатна генерувати інтерфейс, кнопки, стіки, навіть запускати прості ігри типу “Super Plumber” (клон Маріо) і мати звукові ефекти. Це просто шалено! Ці моделі досягають такого рівня, що створюють робочі ігри та операційні системи з нуля.

Це, звичайно, викликає питання: чи не “придушить” Google потужність Gemini 3 через питання безпеки? Чи не буде модель надто зупиненою? Це, на жаль, турбувало нас ще з часів GPT-4. Сподіваюся, старі, більш компетентні версії моделей не будуть загублені.

Nano Banana 2.0: більше розуміння, більше креативу

Тепер про Nano Banana 2.0, або Gem Pix 2. Після успіху першої версії, випуск другої був питанням часу. Я досі користуюся першою версією, але моєю головною претензією була проблема зі створенням зовсім нових сцен на основі зображень-референсів. Модель часто “чіплялася” за одне з початкових зображень. Я сподіваюся, що Nano Banana 2.0 матиме краще розуміння запитів, кращу відданість інструкціям та більшу здатність створювати щось справді нове.

І ось вам ще одна цікавинка: новий LoRA для роботи з кількома ракурсами. Ви можете завантажити будь-яке зображення і обертати його, створюючи послідовні кадри для відео. Це буде порятунком для тих, хто займається створенням відео на основі зображень. Цей LoRA – відкритий, доступний на Hugging Face.

Я спробував покрутити “страшного лимона”. Деталі зберігаються, навіть невеличка вада на його голові. А якщо повернути його на 90 градусів? Працює неймовірно! Ви можете створити ефект “черв’яка”, опустивши камеру. Це просто космічно! Цей LoRA – чудовий приклад того, як потужні інструменти стають доступними для всіх.

VEO 3.1: керуйте камерою віртуально

Ще одна цікава новина з світу відеогенерації. VEO 3.1 тепер офіційно підтримує налаштування камери. Ви можете змінювати її позицію, додавати різні типи руху. Тім з Theoretically Media провів чудові тести. В інтерфейсі є опції: вниз, вгору, зліва, справа, ближче, далі, стаціонарно.

Ось, наприклад, камера обертається вгору, створюючи драматичний кадр. І все це – стабільно та контрольовано. Важливо, що всі елементи – одяг, персонажі, вогонь – залишаються консистентними. Тім використовував завантаження зображень, і VEO 3.1 чудово впорався. Особливо вражає класичний “долі-зум” з “Щелеп”. Якщо хочете дізнатися більше, раджу заглянути на канал Тіма – він справді чудовий!

X AI’s Grok: миша, яка знає, куди бігти

На завершення – демонстрація від Mark Crushman. Це Grok, відеомодель X AI, яка розв’язує лабіринт разом з маленькою мишкою. Це чудово демонструє візуальний та просторовий інтелект AI-відеомоделей. Ви можете поставити сир в одному місці, мишку – в іншому, і модель зможе вести її найкоротшим шляхом, не порушуючи правил лабіринту.

Звісно, лабіринт не надто складний, але модель відтворює траєкторію, створює додаткові блоки, і це виглядає логічно та інтелектуально. Це нагадує мені про “іммерсивний інтелект” слизовиків, які теж вміють знаходити найкоротші шляхи. Це просто неймовірно, як просторове розуміння проявляється в різних формах інтелекту – від людей і тварин до слизовиків та AI-відео.

Що далі?

Отже, AI-світ постійно розвивається. Gemini 3 та Nano Banana 2.0 обіцяють бути справжніми проривами. ChatGPT стає розумнішим і зручнішим. Sora відкриває нові можливості для створення відео. А відкриті моделі, такі як Kimi K2, роблять передові технології доступнішими.

Що ж робити нам?

Слідкуйте за новинами.
Експериментуйте.
Не бійтеся майбутнього.
Залишайтеся допитливими.

Ми опинилися на порозі нової ери штучного інтелекту. Цей шторм – це не просто новинки, це значні кроки вперед, які можуть змінити наше життя. Від можливості переривати AI-діалог до створення складних 3D світів та музики – межі стираються. Найважливіше – залишатися в потоці, вчитися та використовувати ці нові можливості на повну.

Насолоджуйтесь вихідними, експериментуйте, і до зустрічі в наступній захопливій подорожі в світ AI!

AI 2026: Чи Готові Ми до Ери Цифрових Супергероїв Google?

ШІ говорить SQL: Революція в аналізі даних

Чи настав час вірити в AGI? Розбираємо заяву Integral AI та роздуми про майбутнє штучного інтелекту.

AI 2026: Чи Готові Ми до Ери Цифрових Супергероїв Google?

ШІ говорить SQL: Революція в аналізі даних

Чи настав час вірити в AGI? Розбираємо заяву Integral AI та роздуми про майбутнє штучного інтелекту.

Популярні

Мистецтво майбутнього: 50 креативних стилів генерації зображень з ChatGPT та Sora

Від нуля до майстерності: Подорож у світ автоматизації з N8N

Клод 4: ШІ, який мислить, відчуває та ставить під сумнів реальність

Підпишіться