Тиждень Революції: Порив Хвиль Штучного Інтелекту
Цей тиждень відчувався як потужний порив хвиль у світі штучного інтелекту. З усіх боків – великі імена, що випускають нові розробки, відкритий код, дивовижні демо. Мене, як ентузіаста, такі тижні неймовірно захоплюють. Давайте поринемо у деталі, адже новини просто кишать від цікавого!
Meta кидає виклик (або ні?)
Почнемо з перегляду: Meta випустила Llama. Я навіть зробила ціле відео про це, адже навколо було чимало суперечок. У світ вийшли дві нові моделі: Llama for Scout та Llama for Maverick. Обидві мають 16 мільярдів активних параметрів, але Scout містить лише 16 експертів, а Maverick – вже 128. Головне – жодна з моделей (навіть мініатюрна Scout) не працює на звичайному споживчому обладнанні. Вони призначені для корпорацій, для бізнесу. Хоча вони й відкриті, ліцензія не зовсім ідеальна.
Висновки? Випуск досить посередній, на жаль. Не такий захоплюючий, як попередні Llama, і загалом, затьмарений іншими подіями тижня.
Ось ще одне: Ply вже зламав систему безпеки Meta Llama 4. Схоже, жодна модель не може встояти, якщо Ply поруч.
Новачок у світі генерації зображень – HighDream AI
Переходячи до візуального, з’явилася нова модель для генерації зображень – HighDream AI. Вона має три варіанти: для повної якості, для розробників та для швидкої генерації. Ліцензія – MIT, але текстовий кодер базується на Llama 3, що натякає на ліцензію Llama 3. Все інше – повністю відкрите джерело.
Модель вимагає значного об’єму відеопам’яті (VRAM), але якщо вірити бенчмаркам (а я не рекомендую покладатися на них сліпо), результати виглядають багатообіцяючими. Навіть обганяє Dolly 3, SDXL, Flux… Та не надто. Потрібно пам’ятати, що посилання Hugging Face використовують квантовану версію, що не повністю відображає можливості найпотужнішої версії моделі.
У тесті з важким запитом, HighDream AI впорався блискуче. Прекрасно втілив текст, персонаж виглядає реалістично, без «AI розмитості». Тло – середнє, але загалом, модель справила враження. За посиланням можна протестувати HighDream AI безкоштовно на Hugging Face, що вже добре!
Flux.1 та стилізація зображень
Далі у нас – модель генерації зображень, але вже для стилізації. Вона намагається бути схожою на стилізацію, що є у GPT4 Omni. Вона побудована на основі Flux.1 – чудовій основі. Хоча багато хто говорить, що модель не ідеально переносить стиль на оригінальне зображення, або принаймні, не так добре, як GPT4O. Все одно, вона показує непогані результати для дифузійної моделі, а не авторегресійної.
Експеримент показав доволі добрий результат, хоча й радить підкоригувати налаштування. Як і у попередньому випадку, модель доступна безкоштовно на Hugging Face. Приклад – моя гіфка у стилі Гіблі. Це не ідеально, не зрівняється з GPT4O, але швидше, а ще – повністю відкритий код і ліцензія Apache 2.0!
Google: Пакунок Новинок
Google цього тижня показав велику кількість цікавинок. У минулому відео я розглянула більшу їх частину, але є щось, що залишилось поза увагою, або отримало нові коментарі.
Першою і найважливішою була Firebase Studio – платформа для кодування в стилі AI. Її мета – автоматизація багатьох типових процесів кодування. Вона використовує Gemini, але не 2.5 Pro, яка дуже сильна для кодування. Використовується слабша модель, що призводить до не дуже втішних прикладів. Користувачі не надто добре відгукуються в коментарях, пишуть, що Firebase Studio ще потребує доопрацювання.
Наприклад, Flavio спробував згенерувати програму, і нічого доброго не вийшло. Menroy стверджує, що у нього працює краще, хоча на етапі запуску виникали деякі проблеми з середовищем. Firebase Studio виглядає дуже перспективно, але наразі перебуває на стадії розробки.
Також, були й інші новини. Chubby додав деякі, що я пропустила: оновлена генерація зображень In3, скоро з’явиться текст у музику, працюють над клонуванням голосу. Gemini 2.5 Flash вже доступна. Від Google було багато випусків, і майже все було цікавим!
Ironwood: Новий TPU для інференсу
Ще один аспект, який я не згадала у попередньому дописі, – новий TPU, побудований для інференсу штучного інтелекту. Він зветься Ironwood, це їхнє шосте покоління TPU, 192 ГБ ОЗУ на чіп і в 4,5 рази швидший доступ до даних.
Багато великих компаній, які займаються штучним інтелектом, шукають альтернативні методи Nvidia GPU, дешевші способи інференсу AI. Ironwood виглядає як серйозний конкурент.
Також, Google офіційно випустила V2 публічно, і ним можна користуватися в Gemini (тестувала, вражена). Звісно, немає завантаження зображень в Gemini – невелика незручність, але V2 – це чудова модель. API має функції inpainting та outpainting, що неймовірно здорово.
З’являються налаштування камери, наприклад, панорамування вправо, що дуже корисно для професійної діяльності команди, яка хоче створити рекламу або історію, великі групи людей, які працюють з цими системами на більш високому рівні. Також, є перший і останній кадри через API. Приємно бачити, що Google робить V2 публічним через API, враховуючи, на скільки гарна ця модель.
Gemini 4 Turbo: Швидкість та доступність
Gen 4 Turbo тепер також доступна. Минулого тижня ми говорили про офіційний повний випуск Gen 4, але зараз є Turbo-модель, яка у п’ять разів швидша та вдвічі дешевша за оригінальну Gen 4. Звісно, якість та узгодженість з підказками не найкраща у порівнянні з Gen 4, але вона дозволяє швидко генерувати ідеї. Якість – доволі непогана для turbo-моделі.
Приклад: зганьблений удар блискавки. Модель погано справляється з великим рухом, якщо це не люди. У відео-прикладах видно, як це спрацьовує. Runway ML ніколи не була одним з кращих генераторів відео для анімації. Можна побачити, як модель справляється з більш складними підказками. Я спробувала спробувати зловити лимон, і вичавити сік у рот, і це призвело до створення досить дивних відео. Turbo-модель все ж таки зберегла мою цілісність в усіх кадрах.
Нові горизонти відеогенерації
У світі AI video-генерації – нові новини. Новий папір, 1-хвилинна генерація відео з тренуванням у реальному часі. Детальний огляд показав, що ця штука генерує мультфільми про Тома та Джеррі, тривалістю в 1 хвилину, але їх можна розширити до 5-10 хвилин.
Папір дуже перспективний – історії узгоджені, герої взаємодіють так, як мають. Джеррі та один з них відключає комп’ютер, і Том злиться та починає шукати, що сталося – як у класичних серіях про Тома і Джеррі. Дуже вражаюче.
Раджу переглянути це відео! На мою думку, цей документ недооцінили.
Higsfield AI: Контроль над камерою
Higsfield AI теж має оновлення. Це нова компанія, що випускає нову модель генерації відео AI, яка зосереджена на різних методах та роботі з камерою. Тепер вони додають ще більше! Можна, поєднуючи кілька елементів керування рухом в одному кадрі, навіть такі, які неможливі у реальних камерах. Це вражає.
Також, вони випускають 10 нових елементів управління рухом, розроблених для швидкості, напруги та кінематографічного впливу. Якщо контроль над камерою – головне для вас у генерації відео з AI, Higsfield AI – найкращий варіант. Є багато прикладів.
Експеримент з вибухом. Хтось вибухає на фоні. Дивимось, капелюх злітає з її голови – епічно! Кран та масштабування – теж непогано.
Якщо робота з камерою має велике значення для вас, ця програма має бути у вашому списку.
LTX Studio: Персонажі оживають
У сфері відеогенерації, LTX Studio нарешті додано персонажі. Можна створювати власні персонажі AI, використовуючи свої референсні зображення, і підтримувати узгодженість облич, виходів та стилів у кожному кадрі з LTX Studio.
Якщо ви фанат LTX Studio, розкажіть, чи давно ви мріяли про цю функцію. Один з моїх недоліків щодо LTX Studio був той факт, що персонажі не були достатньо узгодженими. Варто поглянути. Приклад з рудоволосою дівчиною – супер узгодженість. Це зберігає її очі, веснянки, усі деталі обличчя.
11 Labs: Новини у світі аудіо
11 Labs підготували декілька оновлень. Новий сервер MCP дає доступ Claude та Курсору до повної платформи 11 Labs AI audio і дозволяє їх підключити за допомогою текстових підказок.
Класно та просто! Якщо ви використовуєте Clott Cursor, ви можете налаштувати голосових агентів для здійснення вихідних дзвінків, наприклад, замовлення піци, або інші варіанти.
Також, додали ще приклади: простий текст у мовлення, мовлення у текст, створення індивідуальних AI-голосів або розмовних динамічних голосових агентів.
11Labs оновила своє професійне клонування голосу, дозволяючи створювати високоякісні озвучення, які максимально нагадують ваш голос. 11 Labs був головним конкурентом у галузі перетворення тексту в мовлення, ще з часів зародження штучного інтелекту. Я використовувала їхнє професійне клонування голосу раніше, і воно дуже гарне та популярне.
Нова версія професійного голосу, що полегшує створення майже ідеальної відповідності вашого голосу, неймовірно захоплює. Хочу протестувати. 11 Labs – класне оновлення!
Повідомлення для вас. Я з такою швидкістю охоплюю новини, що просто шаленіємо від кількості подій. Якщо ви хочете, аби я детальніше щось розглянула, розкажіть у коментарях, пояснюючи, що саме вас зацікавило. Наприклад, професійне клонування голосу.
Minecraft: Дифузія та Асистент
Тепер – декілька класних демонстрацій Minecraft.
Voxal Diffusion в Minecraft. Це з Reddit stable diffusion. Починаємо з хаотичного шуму з блоків, а потім дифузія перетворює його на тривимірну структуру будинку. Ми звикли до дифузійних моделей, які генерують відео або двовимірні зображення, але вони можуть працювати і в 3D. Наскільки це круто? Приклади – генерація будинків, хотіла б спробувати згенерувати щось унікальне, статуї.
Другий приклад. Асистент AI, що динамічно грає з вами в Minecraft. Якщо ви будуєте будинок, він зрозуміє, що ви робите, і почне допомагати, використовуючи ті самі блоки, намагаючись відповідати вашим шаблонам. Шалено!
Асистент не був навчений з RLHF, а працює з помічниками у грі. Це кращий шлях для створення агентів AI. На відміну від RLHF, допомога у грі явно розглядає взаємодію користувача та асистента як гру для двох гравців, де користувач знає свою мету, а помічник – ні. Ця модель розроблена для спілкування про мету користувача та співпрацю для її досягнення.
Це теж безумство. Він демонструє нову корисну поведінку, активне навчання та навчання за виправленнями. Асистент будує стіни на один блок вище, щоб дізнатися, чи почне користувач розбивати їх, кажучи: “Ні, я не хочу, щоб дах був таким”. Після цього помічник вчиться та починає ламати блоки. Неймовірно!
Grok 3: Все ще вражаючий
API Grok 3 нарешті доступний, і ціна не така вже й страшна. Є декілька моделей: Grok 3 beta, Grok 3 fast beta, Grok 3 mini beta та Grok 3 mini fast beta.
Найдорожча модель – Grok 3 fast beta. Для текстового введення ціна 5 доларів, а для завершення тексту – 25 доларів за 1 мільйон токенів. Звичайна Grok 3 beta – 3 долари за 1 мільйон токенів введення та 15 доларів за 1 мільйон токенів виведення.
Grok 3 Mini – 30 центів за 1 мільйон вхідних токенів та 50 центів за 1 мільйон вихідних токенів. Готовий до конкуренції. Mini fast beta виявилася вдвічі дорожчою лише для вихідних маркерів. Не знаю.
Добре те, що всі вони мають однакову довжину контексту, 131000 токенів, що досить багато.
Epoch AI також провела власні незалежні оцінки Grok 3. Тепер, коли у нього є API, він все ще добре працює. Grok 3 Mini з низькою логікою не набагато відстає від Claude 3.7 Sonnet.
Дивно, але всі ці моделі Grock перевищують GPT 4.5 та старішу Claude 3.7 Sonnet без жодної розумової діяльності. Gemini 2.5 Pro неможливо наздогнати, але я вражена, наскільки хороші ці моделі насправді. Здається, що їх постійно оновлюють і добре допрацьовують для випуску API.
OpenAI: Нове у ChatGPT та Загрози Новим Моделям
На завершення – новини від OpenAI. Нова опція для ChatGPT: розширена пам’ять. Він тепер може посилатися на всі ваші минулі чати, щоб забезпечити більш персоналізовані відповіді. Використовує ваші уподобання та інтереси, щоб дати важливі відповіді. Розуміє вашу особистість, те, як ви ставите питання, і може робити досить точні висновки, виходячи з того, як ви спілкуєтеся з ChatGPT.
Він базується на збережених пам’ятях, але буде посилатися на минулі, щоб знаходити релевантні відповіді. Робить взаємодію розумнішою та більш індивідуальною. Можна відмовитися або вимкнути її. У моєму випадку, він багато чому навчиться про вас. Дуже точно описує вас, виходячи з ваших діалогів.
Є невеличкі глюки, коли я питаю про щось дуже конкретне, але він швидко все виправляє, що дуже добре. Дивовижно точна інформація. Розповість речі, про які ви навіть не здогадуєтесь. Дуже дивно.
На основі мого спілкування, я знаю багато чого про себе. Це дало мені певну різновидність, погляд на те, як я виглядаю в очах інших людей, або як дуже розумна людина розбере мене як особистість. Знання себе часто може підвищити продуктивність чи творчість.
Спробуйте різні підказки.
Це вже є у ChatGPT. Багато хто має доступ. Також, OpenAI готує до випуску три нові моделі. Ми вже давно про це говоримо. Багато хто каже, що це буде вже наступного тижня. 04 Mini, 04 Mini High та велика 03, яка має бути передовою. Цікаво, що OpenAI покаже.
Подейкують – і ставтесь до цього з обережністю, – що Sam вимагає швидше випустити ці моделі наступного тижня. Немає підтвердження, але є цитати: “Це рецепт катастрофи”. Але знов-таки, ставтесь до цього з обережністю.
OpenAI ретельно стежить за оцінкою безпеки, і OpenAI зазвичай проводить доволі пристойні оцінки безпеки, якщо це турбує. Але всі ці моделі будуть негайно зламані, як тільки їх випустять. Стежте за Ply в X, він все зламає. Безпека не має великого значення, коли ви можете ввести підказку в модель від Ply, і модель негайно зламають.
Заключення
Ще один приємний момент: Olama тусується із Sam Altman. Вони кажуть: “Давайте зробимо open source”. Вони подарували йому кружку Olama. Olama отримав також кружку OpenAI. Схоже, вони спілкуються. Це потенційно може бути пов’язано з тим, що OpenAI хоче випустити потужну велику мовну модель з відкритим доступом з гарною ліцензією незабаром.
Я дуже сподіваюся, що OpenAI досягне успіху, і ліцензія буде задовільною. Ми хочемо будувати та прискорювати.
Дякую за перегляд. Якщо я щось пропустила, дайте знати. Яка тема для вас найцікавіша? Я з радістю заглиблюсь детальніше у все це.
Гарних вихідних, до зустрічі!