ШІ-тиждень: Від Тріо до Роботів, що складали шкарпетки (і трохи драми!)
Останні дні у світі ШІ були неймовірними. Новини просто вилітали з екранів, як зернятка з жменьки: GPT-5, Google Genie 3 – вже вчорашній день! Поки всі обговорювали ці “великі” події, купа інших цікавих інструментів та історій просто пролетіла повз. Знаєте, як буває: шумить на одному боці, а найцікавіше – зовсім поруч, тихо й непомітно. Тож, не гаймо час і зануримося в найсмачніше, що сталося цього тижня у світі штучного інтелекту. І почнемо з того, що можна спробувати просто зараз!
3D-дива від Microsoft: Ваш образ у тривимірному світі
Уявіть: у вас є фотографія, наприклад, улюбленої чашки, або того самого кумедного котика. А тепер уявіть, що за мить ця картинка перетворюється на справжній 3D-об’єкт, який можна обертати, розглядати з усіх боків. Звучить як магія? Це – Copilot 3D від Microsoft! Це не Text-to-3D, ні. Ви даєте йому зображення – він перетворює його на 3D-модель.
Навіщо це? Можливостей безліч! Хочете створити 3D-асети для нової гри? Будь ласка. Або надрукувати мініатюрну модель улюбленого героя? Легко! Вебдизайнери, певно, в захваті – можна перетворити двомірну графіку на щось об’ємне для сайтів чи навіть для віртуальної реальності. Ці об’єкти можна переносити у віртуальні світи. Найприємніше – це абсолютно безкоштовно!
Щоб скористатися цим дивом, знадобиться безкоштовний обліковий запис Microsoft. Заходите на сторінку, шукаєте в бічній панелі “Labs”, і там знайдете Copilot 3D серед інших цікавинок.
Я вирішила протестувати його на двох фронтах. Спочатку створила зображення улюбленого Леонардо (так, я трохи закохана в цей інструмент, і так, я там радник, але це не важливо ). Що могло б бути веселішим за роликові ковзанки у формі тако? Правильно, нічого!
Завантажую це зображення в Copilot 3D. І знаєте що? Непогано! Всього за 20 секунд – і ось він, мій “тако-скейт”, майже реальний. Тіні, можливо, трохи здивували, ставши частиною об’єкта, але хто знає Blender, той швидко це виправить. Швидкість просто вражає.
А потім я взяла камеру і сфотографувала свою гітару. Хоч на ній і бракує однієї струни (поки що!), я сподівалася, що 3D-генератор не помітить.
Завантажую фото. Цікаво, як він впорається з фоном, де є розетка, що ледь-ледь ховається за гітарою? Ще 15 секунд, і… Непогано! Головка грифа трохи дивна, але загалом – це чудова база для роботи. Можна було б навіть закинути це в Unreal Engine і прикрасити свій віртуальний світ. Пам’ятаю, ще рік тому на подібні перетворення доводилося чекати пів дня, обробка йшла десь у хмарі. А зараз – 15 секунд! І, здається, модель розуміє, що таке гітара, бо навіть здогадалася, як виглядає її зворотний бік, спираючись на навчальні дані. Це справді вражає, і це безкоштовно!
Perplexity: Ваші відео з кіно-звуком
Якщо ви хочете генерувати відео, та ще й з гарним звуком, то Perplexity – ваш вибір. Хоча V3 (та сама, що від Google) може коштувати чимало, якщо користуватися напряму, Perplexity робить її доступнішою. Скоріш за все, вони вже використовують V3, хоч офіційного підтвердження немає. Відеогенерація доступна вже на вебі, iOS та Android. Для Pro-підписників – 5 відео на місяць, для Max – 15, і якості ще кращої.
Працює дуже просто. Заходимо на perplexity.ai. Я на Pro-плані, тому маю 5 спроб. Пишу простий запит: “Згенеруй відео про ковбоя, що їде на кенгуру поверх виверження вулкана”. І вперед!
Ніяких особливих режимів, нічого. Perplexity сам оптимізував мій запит, зробивши його більш детальним. Приблизно за хвилину отримала результат. І, знаєте, я задоволена! Ковбой, кенгуру, і навіть якісь звуки, хоч і не впевнена, чи справді кенгуру гарчать.
А ще можна спробувати з картинки! У мене є фото від продюсера Дейва – річка з Mountain Dew, гори з Doritos і будинки з піци.
Прошу Perplexity створити відео за цим зображенням. І… схоже, він створив новий запит, натхненний картинкою, а не використав вихідне зображення. Але ні, я помилилася! Він таки використав моє зображення! Ось результат: річка з Mountain Dew, гори та будинки з піци. Все це зі звуком! Вісім секунд – і це, здається, ще один натяк на використання V3. Якщо ви вже платите за Perplexity, то це чудовий бонус.
OpenArt: “Мозковий штурм” за один клік
Давно не було новин про “мозковий штурм” (brain rot) в ШІ, правда? Компанія OpenArt, заснована колишніми співробітниками Google, тепер може генерувати такі відео за один клік. Що таке “brain rot”? Ну, уявіть собі щось на зразок: “Ти акула, а ні, більше схоже на бла-бла-бла. Махай плавниками, але не можеш запалити. Ти так тупиш, що навіть морські водорості тебе обганяють”. Або ось це: [тут має бути коротке відео з прикладом]. Це, по суті, ШІ-згенерований крінж чи славнозвісний “слаб”.
OpenArt запустив нову функцію – “One-click story”. Вводите одне речення, сценарій чи навіть пісню – і отримуєте хвилинне відео з цілою історією. Я, звісно, не в захваті від такої “сміттєвої” генерації, боюся, що світ скоро потоне в цьому. Але мій обов’язок – тестувати інструменти!
Заходимо на openart.ai. Зліва – розділ “Story”. Можна вибрати: “Character vlog”, “Music video”, “Explainer video” або “From scratch”. Спробуємо “Character vlog”. Вибираємо персонажа – у мене це буде велика плюшева пінгвіноподібна істота. Даємо їй тему: “Пінгвін стрибає з парашутом”. Питання про дозвіл на зміну одягу – так, чому б ні? Музику вибираємо автоматично.
Але тут є невелика проблема… Створення такого відео коштувало б близько 1000 кредитів. А мені дали лише 500! Це означає, що я навіть не можу нормально протестувати, не кажучи вже про безкоштовну спробу. Трохи прикро, що вони не дають спробувати хоча б одне відео безкоштовно. Виглядає так, що для цього потрібен план за $14 на місяць.
Добре, довелося “дати копняка” і оформити підписку. Тепер у мене 4000 кредитів, і я можу створювати історії! Ось що вийшло:
“У нас вийшло. У нас вийшло. Це перемога. Ура! Ми проповзли крізь собачі двері з нашим маленьким цуценям. У нас вийшло. У нас вийшло. У нас вийшло. Ура!”
І так, літак злітає вертикально, а парашут пінгвіна самовільно змінюється посеред польоту. Але саме в цій “незграбності” і криється привабливість таких відео. Шкода, що доводиться платити, щоб це побачити.
Recall: Пам’ять, як у ШІ-експерта
Я споживаю багато контенту про ШІ та технології. Якби мене попросили згадати кожне YouTube-відео, статтю чи подкаст, які я слухала минулого тижня, я б, мабуть, запанікувала. А ось Recall – це як пам’ять, що працює на ШІ. Він допомагає зберігати, резюмувати та пов’язувати все, що ви читаєте, дивитеся чи слухаєте, щоб потім до цього повернутися.
Як я його використовую? Коли я онлайн, я користуюся браузерним розширенням Recall, щоб резюмувати статті, відео на YouTube, навіть двогодинні подкасти. Один клік – і готово розумне резюме, яке можна редагувати й зберігати. Найкрутіше – він автоматично тегує, організовує та пов’язує весь контент у вашій базі знань.
Нещодавно Recall додав нову функцію: тепер можна “спілкуватися” з усім, що ви зберегли. Замість того, щоб переривати всі свої скрипти для відео, я можу просто запитати Recall: “Переглянь усі інструменти ШІ, які я тестувала у своїх відео, і знайди новий інструмент для генерації зображень, який я ще не пробувала”. Чудово! Не терпиться це спробувати! Плюс, можна імпортувати тисячі старих нотаток, документів, закладок, навіть TikTok. Recall робить усе це доступним для пошуку, пов’язує та готовим до розмови.
Спробуйте самі на getrecall.ai і отримайте 30% знижки за промокодом MattWolfe30 (діє до 1 жовтня 2025 року).
NotebookLM: Відео-огляди на будь-яку тему
Минулого тижня ми говорили, що NotebookLM готує відео-огляди. Отже ось новина: тепер у всіх є до них доступ! Якщо ви не знайомі з NotebookLM, то це крутий інструмент, куди можна завантажити багато джерел: статті, вебсайти, відео на YouTube. А він дозволить вам спілкуватися з цими документами, створювати з них карти думок, аудіо-подкасти з двома ведучими, генерувати звіти (FAQ, навчальні посібники тощо). А зараз – ще й відео-огляди!
Я зробила невеликий тест: попросила створити контент про рух “Птахи не справжні” (це такий сатиричний конспірологічний рух). Подивимось, чи зможе він згенерувати пристойний відео-огляд на цю тему.
Клацнули “Video overview”. Не знаю, скільки це займе часу, але спробуємо.
ОК, обробка зайняла близько 10 хвилин. Результат – 7 хвилин 27 секунд. Ось початок: “Птахи не справжні. Чи коли-небудь ви дивилися на голуба і думали: “Це, мабуть, урядовий дрон”?” Звучить дико, я знаю, але це – основна ідея руху, що захопив інтернет.
Голос схожий на той, що у подкаст-версії NotebookLM, але тепер ще й з відео. Прокручуючи відео, бачимо, що це схоже на слайд-шоу, і виглядає дуже гарно. Вся презентація супроводжується голосом. Часова шкала виглядає чудово.
Важливо: це не використовує V3 від Google. Скоріш за все, це Google Vids – їхній ШІ-інструмент для створення таких презентацій. Але це все одно вражає: завантажуєш інформацію про будь-яку тему, а він створює аудіо-подкаст і гарну презентацію до нього. Не здивуюся, якщо незабаром побачимо цілі YouTube-канали, що працюють за такою схемою: завантажив інформацію в NotebookLM, отримав відео, опублікував. Це виглядає дуже непогано.
Google: Фінанси, Авіаквитки та Gemini
Google теж не спав цього тижня. Вони запустили оновлений Google Finance з ШІ. Тепер можна досліджувати фінансові питання за допомогою штучного інтелекту, використовувати розширені інструменти для побудови графіків та отримувати дані в реальному часі.
Заходимо на google.com/finance. Поки що не бачу нового ШІ-інтерфейсу, хоча стаття обіцяє, що незабаром з’явиться можливість перемикатися між старим і новим дизайном. Хочеться вірити, що можна буде ставити складні запитання про світ фінансів і отримувати вичерпні відповіді від ШІ.
Ще одне оновлення від Google – це ШІ-пошук авіаквитків, який розгортається в США, Канаді та Індії. На google.com/travel/flights/deals теж поки що звичайний інтерфейс, але очікується, що скоро можна буде описувати свої мандрівні плани природною мовою, а система знаходитиме доступні варіанти.
І, звісно, Gemini. Тепер у ньому з’явився режим тимчасових чатів – це як режим інкогніто для ваших розмов. Такі чати не зберігатимуться в історії. Головне – Gemini тепер розуміє вашу історію чатів! Тобто, якщо ви не використовуєте тимчасовий режим, Gemini зможе використовувати попередні розмови для контексту.
“Сьогодні ми представляємо новий параметр, який дозволяє Gemini навчатися на ваших минулих розмовах з часом. Коли цей параметр увімкнено, Gemini запам’ятовує ключові деталі та ваші переваги, які ви поділилися, що призводить до більш природних та релевантних розмов.”
Це те, що вже є в ChatGPT, і я вважаю це дуже корисним. Anthropic з Claude теж додала цю функцію. Їхній Claude може згадувати минулі розмови, але тільки якщо ви його про це попросите.
Я спробувала це на Claude.ai. Пишу: “Привіт, Claude. Які були головні моменти наших останніх розмов?”. І він одразу запропонував мені згадати про клони браузерів, які ми робили, гру Survivors, і навіть додаток для фітнесу. Це працює!
Коли я спробувала те саме запитання до Gemini (“Знаючи це про мене, яку пораду ти б мені дав зараз?”), він відповів: “Я не маю особистих спогадів чи доступу до наших минулих розмов”. Тобто, ця функція ще не повністю розгорнута. Здається, це стала така собі “фішка” Google – анонсувати щось круте, але сказати: “Ви отримаєте це скоро”.
Суперечки мільярдерів: Ілон Маск проти Сема Альтмана
А тепер – драма! Мільярдери, що з’ясовують стосунки в публічному просторі – це, як на мене, краще за будь-яке реаліті-шоу. Ілон Маск звинуватив Apple у порушенні антимонопольного законодавства, заявивши, що вони створюють неможливі умови для будь-яких ШІ-компаній, окрім OpenAI, щоб досягти першого місця в App Store.
На це Сем Альтман відповів, що це дивно чути, враховуючи, як сам Ілон Маск маніпулює алгоритмами X, щоб допомогти своїм компаніям і нашкодити конкурентам. Ілон, звісно, не забарився з відповіддю, назвавши Альтмана брехуном. На це навіть Grok відреагував, сказавши, що Альтман має рацію, хоча доказів немає. Цікаво спостерігати за цими баталіями.
До речі, про Ілона Маска: один із співзасновників xAI, Ігор Бабушкін, покидає компанію. Він керував інженерними командами. Сам Маск подякував йому за внесок. Здається, Ігор засновує власний венчурний фонд. Але як цікаво збіглися події: виходить GPT-5, Маск і Альтман сваряться, а тут ще й співзасновник xAI йде. Багато чого відбувається одночасно!
Microsoft проти Meta: Битва за таланти
А пам’ятаєте, як минулого тижня ми говорили, що Meta активно “переманює” спеціалістів з OpenAI та Google, створюючи команду суперінтелекту sulfonic? Тепер Microsoft робить те саме, але з Meta. Пропонують мільйонні пакети зарплат, щоб переманити таланти. Хоча, здавалося б, Meta і Microsoft досить тісно співпрацюють. Але боротьба триває! Коли мільярдери б’ються – це моя улюблена “реаліті-драма”.
Нові Моделі Мови: Від Google до Mistral
А тепер швидко про нові великі мовні моделі:
- Google Gemma 3 270M: Це модель на 270 мільйонів параметрів. Не 270 мільярдів, а саме мільйонів. Це невелика модель, призначена для роботи на телефонах, швидка та ефективна. Не конкурент GPT-5 чи Claude 4.1, а щось для локального використання.
- Mistral AI Medium 3.1: Модель від Mistral. Обережні покращення порівняно з попередніми версіями.
- Alibaba Qwen Models: Моделі Qwen Qwen3, Qwen3 257, Qwen3 235B, Qwen22B 257 отримали оновлення – ультрадовгі контекстні вікна до 1 мільйона токенів! Назви, звісно, звучать як заклинання, але головне – можливість обробляти величезні обсяги тексту. Це вже стає нормою, і скоро, мабуть, контекстні вікна взагалі перестануть бути важливими, бо будуть настільки великими, байдуже, скільки тексту ви туди закинете.
OpenAI повертає 4o та Grok стає безкоштовним
Після запуску GPT-5 та бурхливої реакції на те, що вони прибрали модель 4o, OpenAI повернули її назад в ChatGPT. Тож, якщо ви її любили більше за GPT-5, можете знову нею користуватися.
У відповідь на вихід GPT-5, xAI зробив Grok 4 безкоштовним для всіх по всьому світі! Раніше він був доступний лише на платних планах. Тепер Grok 4 доступний усім. Чесно кажучи, це виглядає як пряма реакція на те, що GPT-5 став доступним у безкоштовній версії.
Claude Sonnet 4: Мільйон токенів через API
Anthropic також порадував новиною: Claude Sonnet 4 тепер підтримує до 1 мільйона токенів контексту. Але, здається, це лише через API, і тільки для Sonnet. Їхній новий Claude Opus 4.1, який я вважаю найкращою моделлю для кодування, поки що не має такого вікна. Якщо ви використовуєте додатки на кшталт Cursor чи Window, або розробляєте власні продукти на базі Claude, ви отримаєте доступ до цього мільйонного контексту. Ціна, звісно, зростає, якщо потрібно більше 200 000 токенів.
Skywork Matrix Game 2.0: Ваше власне 3D-світло
Минулого тижня ми бачили Genie 3 від Google, що дозволяв входити у створений світ і переміщатися там за допомогою стрілок. Це було справді круто, але доступу ми ще не мали. І ось цього тижня Skywork AI випустив Matrix Game 2.0 – схожу, але з відкритим кодом версію, яка доступна просто зараз!
Заходимо на демо-сторінку. Якість, можливо, не найвища, але ви можете рухатися цим світом. Схоже, все починається з одного зображення. Ось ще приклад, де можна переміщатися по сценах GTA.
Як це працює? Спочатку створюється повна 360-градусна панорама, а потім розширюється з контролем камери. Це допомагає створити послідовність, щоб при обертанні сцена залишалася тією ж. Раніше, коли ви поверталися, сцена могла змінитися. Зараз – ні. Це досягається завдяки “вимальовуванню” навколо панорами.
Ідея мені дуже подобається, я б із задоволенням її продемонструвала, але… вона вимагає багато обчислювальної потужності. Модель доступна на Hugging Face та GitHub, але потрібен потужний Nvidia GPU з 24 ГБ пам’яті. На жаль, на моєму Mac такої потужності немає. Сподіваємося, з’являться хмарні версії, щоб ми могли це протестувати.
Midjourney: HD-відео для всіх
Якщо ви фанат Midjourney, то у них теж є новини. Раніше HD-відео було доступне тільки на вищих тарифних планах. Тепер – і на стандартних! Можна створювати відео невеликими пачками, по одному-два за раз. Mood boards тепер на окремій сторінці. Також покращили мініатюри відео-завдань та модерацію. Дрібні, але приємні оновлення, і тепер більше людей мають доступ до HD-генерації.
Pika Labs: Швидка ліп-синхронізація
Компанія Pika Labs пообіцяла оновлення – “модель продуктивності, керованої аудіо”, яка робить досить непоганий ліп-синхрон. І все це – за 6 секунд або менше в HD! Звучить дико, але це буде доступно в додатку Pika Social. На момент запису – ще не з’явилося, але виглядає вражаюче:
“Я пішла на побачення минулого вечора, і я знала, що це провально, як тільки він сказав: “Я не дуже вірю в соуси”. А ви, мабуть, сидите в цьому додатку по 15 годин на день. Я та дівчина, про яку пишуть пісні про розставання.”
Чудово для швидкості! 6 секунд для HD-відео, і синхрон губ – на рівні всього, що ми бачили раніше.
Higgsfield AI: Малюй і дивись, як воно оживає
Пам’ятаєте, минулого тижня я показувала функцію VO3, де можна було малювати на зображеннях, і відео повторювало ці малюнки? Higgsfield AI втілив це у життя! У них з’явилася функція “Draw to video”. Завантажуєте зображення, робите кілька мазків, вказуєте, що хочете побачити, і відео буде точно слідувати вашим інструкціям. Те саме, що ми бачили у V3, тепер є і в Higgsfield AI.
Kaggle Chess Tournament: Перемога ChatGPT 03
Минулого тижня ми говорили про Kaggle від Google, де ШІ-моделі змагаються в різних іграх. Першим був шаховий турнір. Грок 4 лідирував, але до кінця турніру перемогла модель ChatGPT 03! GPT-5 ще не брала участь, але ось результати: GPT-4 Mini обіграла DeepSeek R1 4:0, GPT-4o обіграла Chemk2 4:0, Gemini 2.5 обіграла Claude Opus 4 (для мене це сюрприз!), а Grok 4 обіграла Gemini 2.5 Flash (це не дивно). Потім GPT-4o перемогла GPT-4 Mini, а Grok 4 – Gemini 2.5 Pro. У фіналі GPT-4o зустрілася з Grok 4, і GPT-4o виграла 3:0! Дуже цікавий турнір, хотілося б бачити більше таких змагань між ШІ.
Джеффрі Хінтон: Страхи та Надії
Один із “хрещених батьків” ШІ, Джеффрі Хінтон, висловив свої побоювання щодо ШІ на CNN. Він вважає, що існує 10-20% шанс, що ШІ знищить людство, якщо ми не знайдемо способу контролювати його, коли він стане розумнішим і потужнішим за нас.
“Так, якщо ми не зможемо знайти рішення, як нам залишатися поруч, коли вони стануть набагато розумнішими і потужнішими за нас, ми будемо знищені.”
Він також говорить про “проблему узгодженості” – коли ШІ, стаючи розумнішим, виходить з-під контролю і може вирішити, наприклад, що для боротьби зі зміною клімату потрібно позбутися людей. Хінтон пропонує “виховати” в моделях материнські інстинкти, щоб вони хотіли захищати людей.
Почути такі слова від людини, яка фактично винайшла цю технологію, а потім припинила працювати над нею, щоб попередити світ про її небезпеку – це, скажу вам, страшно.
Робот, що складає білизну: Нас чекає майбутнє!
Але я не хочу закінчувати на такій песимістичній ноті. Ось що мене справді захоплює: минулого тижня я показувала робота, що виймає білизну з машинки, а тепер Figure Robotics представила робота, який… складає білизну! Це саме те, про що я мріяла!
Цей робот може не тільки виймати речі з машини, але й складати їх. Це справді те, чого варто чекати! Сподіваюся, він не вирішить нас знищити.
Висновок: Майбутнє вже тут, і воно складає шкарпетки!
Ну що ж, друзі, це був насичений тиждень у світі ШІ! Багато чого відбулося, навіть поза увагою гучних новин про ChatGPT та Gemini. Ми побачили нові інструменти, трохи драми, і, звісно, прогрес. Деякі речі, які я планувала показати, ще не вийшли, але це лише означає, що попереду ще багато цікавого.
Прогрес не стоїть на місці, і я тут, щоб допомогти вам бути в курсі всіх останніх подій та інструментів. Якщо вам подобається дізнаватися про найсвіжіші новини та гаджети зі світу ШІ, ставте лайк цьому відео та підписуйтесь на канал! Так ви точно не пропустите жодної цікавинки, яка з’явиться у вашій стрічці YouTube.
Дякую, що провели цей час зі мною, разом розбираючи всі ці круті штуки. Це неймовірно цікаво – знаходити новітні інструменти