Мозок на дроті, пісня з комп’ютера та відео, що читає думки: наш тиждень у світі ШІ
Привіт, друзі! Маю для вас дещо особливе. Розпочну з кави, як завжди, але сьогодні разом з новинами, що технології приносять з кожним днем. Здається, що живемо у фільмі наукової фантастики, який написав надто креативний сценарист? Ось і мені так. Це виглядає так, ніби сценарист вирішив піти у відрив.
Минулого тижня мені скинули посилання з написом: “Це просто божевілля!”. Я, звісно, зацікавився. За мить я вже сидів з виряченими очима, намагаючись усвідомити, що відбувається у світі штучного інтелекту. Уявлення про майбутнє змішуються з реальністю швидше, ніж виходить ідеальний еспресо. І знаєте що? Це неймовірно захопливо!
Тож сьогодні ми зануримося у вир найактуальніших новин зі світу ШІ. Поговоримо про чудові зображення, нові пристрої, що майже читають думки, відео, які народжуються з кількох слів, і навіть про віртуальних міністрів! Готові? Тоді пристебніть паски, ми вирушаємо у подорож крізь кіберпростір!
Ваш портрет очима ШІ: коли гумор зустрічається з кодом
Перш ніж зануритись у серйозніші речі, трохи розважимось. Я люблю, коли технології стають веселими. Мій приятель, який веде цікавий YouTube-канал про ШІ, запустив у себе на Discord-сервері генератори зображень. Щойно я побачив, що там можна зробити з собою – не втримався! Уявіть: я – марафонець, що біжить, намагаючись втримати в руках стільки лимонів, скільки зможу. Чи я – артист, що виконує свої хіти на вулиці. Це все завдяки моделі Cream 4, яка вже стала лідером у сфері обробки зображень.
Цікаво знати: Кажуть, ця модель – справжній “хіт”! Хоча для створення реалістичних персонажів мій друг надає перевагу старій добрій Nano Banana, для редагування зображень без людей Cream 4 – це просто вибух! А генерація природних зображень? Ну, ви б бачили! Це як мати digitale художника, що розуміє ваші найдивніші забаганки. [Приклад зображення, згенерованого за допомогою Cream 4].
І ось підходимо до першої “вау”-новини. Компанія Alter Ego створила “майже телепатичний” пристрій, що дозволяє спілкуватись з ШІ на швидкості думки. Це як міст між вашим мозком і машиною. Уявіть: ви дивитесь на картину, наприклад, ту, що символізує трансатлантичний телеграфний кабель, і думкою можете відправити замітку собі в нотатки. Звучить як щось з майбутнього, правда? [Відео з демонстрацією пристрою Alter Ego].
Але є нюанс, що криється в деталях. Насправді, поки що це не читання думок у повному розумінні. Пристрій, що надягається на голову, як дивна корона, використовує камери, щоб бачити те, що бачите ви, і зчитує сигнали м’язів вашого рота, коли ви подумки вимовляєте слова. Тобто, це вимагає певних, хоч і мовчазних, рухів. Уявіть, як ви йдете магазином, щось “бурмочучи” собі під ніс (чи, правильніше, подумки), щоб скласти список покупок. Збоку виглядає трохи… ексцентрично.
Але найцікавіше трапилося наступного дня! Вийшла нова наукова робота зі Стенфорду про чіп, який справді здатен декодувати внутрішнє мовлення – тобто, по суті, читати думки. Звісно, це ще на стадії досліджень, але перші випробування показують, що потенціал колосальний. І якщо поєднати це з попереднім пристроєм… Ох, тут вже починає паморочитися голова! Ми, здається, стоїмо на порозі чогось грандіозного. [Повний текст наукової роботи Стенфордського університету].
Відео, що народжується з іскри: від лимона до літаючого кота
Тепер перейдемо до генерації відео. Знаєте, це як порівнювати перші спроби малювати восковими крейдами з роботою справжнього художника. ШІ робить такі стрибки, що за ними важко встежити. І ось, нова модель – Lucy 14B від Decart AI. Її позиціонують як найшвидшу модель для перетворення зображень на відео. І, знаєте, я був налаштований скептично. Думав, ну, черговий сирий продукт. Але, чорт забирай, це вражає!
Ось, подивіться цей приклад: чарівник, що зосереджує силу лимона і спрямовує її в небо. Рух, стиль, навіть якась своя фізика – все на місці! І це все створилося буквально за 5 секунд. Я спробував більш складні сценарії. Наприклад, жінка, яка використовує дивну сокодавку, що кріпиться на голову. Вона не просто пожухала, а повернулася, вижала сік, і цей сік… ну, майже потрапив їй до рота. Це геніально! ШІ зрозумів завдання і впорався.
Або ось ще приклад: мурашка з людським язиком, що лиже льодяник. Виглядає дивно? Так. Але модель реалізувала цю небувалу концепцію. Це дуже керовано, якість прийнятна, а головне – це супершвидко і коштує копійки! Єдиний мінус – модель не повністю відкрита. Але спробувати можна на їхньому сайті, хоча мене він іноді підводить.
Ця модель добре працює зі згадками про зображення та рух, трохи нагадуючи мені відео від Midjourney. Шкода, що вона не open-source. Мої напарники по Discord-серверу допомогли з тестуванням, надавши вхідні зображення. Ось, наприклад, анімована обкладинка для метал-групи. Це, звичайно, з креативною свободою, але коли зображення складні, ШІ іноді починає “галюцинувати” – створює щось зовсім нове. Але загалом, це дає такий потужний, динамічний вайб, схожий на Midjourney.
Бачите ці човни, що врізаються в землю і зникають? Або цей загадковий персонаж у масці, що поглинає оточення? Це вражає! Звісно, при наближенні видно втрату деталей, але в русі це виглядає ефектно. Тож, якщо коротко: модель швидка, дешева, весела, але для професійних проектів, де потрібна висока стабільність і низовий рух, можливо, варто шукати щось інше. [Посилання на відео Lucy 14B].
Музика для душі, чи навпаки?
А тепер поговоримо про музику. Minimax випустили свою нову модель для генерації музики – Music 1.5. Заявляють, що її можна використовувати безкоштовно на їхньому сайті. Але, як бачите, мої спроби закінчилися провалом. Також вона доступна на Fal AI, але мені їхній інтерфейс не дуже подобається – все якось занадто строго, багато обмежень.
Сама генерація музики непогана, але порівняно з Suno AI чи Udo Producer AI, вона, чесно кажучи, не дотягує до того ж рівня. Ось послухайте шматок, який мені вдалося отримати, з текстом про лимони, пророків і UFO. [Слухати уривок музики].
В принципі, слухати можна, але місцями ШІ починає “галюцинувати” і продовжує пісню вже без будь-якої логіки. Тож, якщо вам потрібна топ-якість, я б радив триматися перевірених гравців. Хоча, варто відзначити, що це дуже дешево.
А от Stability AI не відстає! Вони випустили Stable Audio 2.5, яка, за їхніми словами, створена для професійного звукового супроводу. І, знайте, це справді круто, особливо для звукових ефектів! Швидко, чітко, і головне – добре реагує на промпти. Спробуйте на їхньому сайті. Я досі користувався безкоштовною версією. Прогрес колосальний, порівняно зі старою моделлю, яка була ще два роки тому.
Ось звук: “Піт пекла відчиняються, полум’я і скрипи”. Стара модель, як ви чуєте, була… ну, скажімо так, не завжди влучна. А ось нова – це вже зовсім інша справа! [Приклад старої моделі]. [Приклад нової моделі].
Дійсно, двері в пекло відчинилися! А ще я згенерував кілька музичних зразків – оркестрових, ембієнтних. Здається, це їхній коник. Якщо ж вам потрібні тексти, то, як я вже казав, краще Suno або Udo. Хоча, іноді ШІ-артефакти тут навіть додають якоїсь особливої атмосфери, наприклад, у стилі Starfield.
ChatGPT стає розумнішим, а Gemini – мовчазнішим
OpenAI нарешті додали підтримку MCP для інструментів у ChatGPT! Це означає, що розробники тепер можуть створювати з’єднувачі й використовувати їх у чаті для виконання реальних дій – не тільки для пошуку даних. Можна навіть запускати Zapier. Звучить як крок у правильному напрямку, правда?
Але знайшовся один коментар, який трохи збив з пантелику. Людина спробувала це робити і виявила, що для використання власних інструментів потрібно перейти в режим розробника. І ось тут прикол: цей режим вимикає всі стандартні інструменти ChatGPT, включно з пошуком в Інтернеті. Тобто, ви класно працюєте з вашим інструментом, але втрачаєте доступ до найважливішого – актуальної інформації. Це якби ви купили суперкар, але не могли заправити його бензином.
Тим часом Google поки що загадково мовчить про Gemini 3.0. Хоча, за чутками, один із інженерів натякнув, що реліз вже не за горами. Ймовірно, це буде в грудні або січні. Але вони також планують випустити меншу версію, Gemini 3.0 Flash, яка, як кажуть, буде розумнішою за поточну 2.5 Pro. А це вже багато чого варте, бо 2.5 Pro тримається дуже міцно.
Цікаво, що на сайті Gemini з’явилася можливість завантажувати аудіофайли. Це класно для резюмування подкастів чи зустрічей. Я вже тестував 2.5 Pro на аудіо – пісні вона вгадує не завжди, до звукових ефектів ставиться нормально, а до мови – ще краще.
А ще є KimiK2 Think – модель з 32 мільйонами параметрів, яка може конкурувати з гігантами, що мають набагато більше. Вона створена виключно на відкритих датасетах, а це означає, що вона теж open-source. Це прямий конкурент для старих моделей OpenAI, але при цьому набагато менша. Шкода, що я поки не знаю, як працює Hermes 4 від Noose Research, але KimiK2 – це справді цікаво для локального запуску. [Посилання на KimiK2 Think].
Міністр, що говорить кодом, і відео, що знімає думки
А тепер щось зовсім несподіване! В Албанії з’явився віртуальний міністр, якого створила компанія Chubby. Її ім’я – Dia, що албанською означає “сонячне світло”. Вона відповідатиме за державні закупівлі. Звісно, поки це більше символічно, і вона не є повноцінним юристом. Але це перший випадок, коли ШІ розроблений спеціально для державного управління. Мені дуже цікаво, як це працюватиме на практиці, які будуть підводні камені. Це може стати чудовим кейсом для вивчення. [Детальніше про віртуального міністра Dia].
Але найсмачніше ми залишили наостанок. Це – Humo від ByteDance. Ця модель – справжній прорив у генерації відео. Вона дозволяє керувати процесом за допомогою фото, аудіо та тексту одночасно. Результати просто приголомшують!
Уявіть: ви завантажуєте фото, додаєте аудіо з улюбленої пісні, пишите короткий опис, і отримуєте відео, де персонажі співають, рухаються, синхронізуючи губи з вашим аудіо. Це справжня магія! Головне – модель відкрита (Apache 2.0) і побудована на базі інших open-source проєктів.
Подивіться на ці приклади. Ви бачите, як персонажі говорять, рухаються, взаємодіють. Особливо вражає синхронізація губ. Це не генерація аудіо, це саме адаптація відео під готовий звук. Модель розуміє команди, дозволяє змінювати костюми, робити фейс-свапи. Це новий рівень контролю над AI-відео. [Посилання на Humo від ByteDance].
Є, звичайно, і мінуси. Наразі генерація обмежена 4 секундами, а для нормального використання потрібно хоча б 15. Також невідомо, скільки VRAM вона вимагає. Але я впевнений, що спільнота швидко підхопить цю модель, оптимізує її, і ми побачимо ще більше дивовижних речей. Це, мабуть, найкрутіше, що я бачив цього тижня!
Замість висновку: куди нас веде ШІ?
Ось ми й пролетіли крізь цілий вир ШІ-новин. Неймовірно, правда? Від пристроїв, що читають думки, до відео, де вашим голосом говорить будь-який персонаж. Це як дивитися фільм, де сценарій пишеться на ходу, а акторами стають цифрові образи.
Ми тільки-но починаємо розуміти, наскільки потужним стає штучний інтелект. Це вже не просто інструменти для розробників, це речі, які змінюють наше повсякденне життя, нашу культуру, наше бачення реальності.
Що далі? А далі – спостерігати, вивчати, пробувати! Долучайтеся до спільнот, експериментуйте з цими моделями, діліться своїми враженнями. Саме завдяки нашим спільним зусиллям, обміну досвідом, ми зможемо зрозуміти, як найкраще використовувати ці дивовижні технології.
Підсумовуючи все вище сказане, цей тиждень був справжнім вибухом інновацій у світі ШІ. Ми побачили нові генератори зображень, пристрої для комунікації на швидкості думки, моделі для створення відео та музики. OpenAI покращує ChatGPT, а Google готує Gemini 3.0. Албанія навіть призначила віртуального міністра! Humo від ByteDance відкриває нові горизонти в контрольованій генерації відео.
Тож, не бійтеся майбутнього, а радше – занурюйтеся в нього з цікавістю та відкритим розумом! Пам’ятайте: найцікавіші пригоди чекають на тих, хто не боїться ставити запитання та шукати відповіді.
А тепер ваша черга! Які новини вас найбільше вразили? Чи пробували ви вже якісь з цих нових моделей? Діліться своїми думками в коментарях! Давайте обговоримо це разом!