Тиждень Революції: Порив Хвиль Штучного Інтелекту
Цей тиждень відчувався як потужний порив хвиль у світі штучного інтелекту. З усіх боків – великі імена, що випускають нові розробки, відкритий код, дивовижні демо. Мене, як ентузіаста, такі тижні неймовірно захоплюють. Давайте поринемо взагалі, у десь так, деталі, адже новини просто кишать від цікавого!
Meta кидає виклик (або ні оскільки )
Почнемо з перегляду: Meta випустила Llama. Я навіть зробила ціле начебто, відео про це, адже навколо було чимало суперечок, десь так. У світ вийшли дві розумієте, нові моделі: Llama for Scout та Llama for Maverick. Обидві мають 16 мільярдів активних параметрів, але Scout. Містить лише 16 експертів, а Maverick – вже 128. Головне – жодна з моделей (навіть мініатюрна Scout) не працює на звичайному споживчому обладнанні. Чесно кажучи, вони призначені для корпорацій, для бізнесу. Хоча вони й відкриті, ліцензія не зовсім ідеальна.
Висновки проте випуск досить посередній, на жаль. Не такий захоплюючий, як попередні Llama, і затьмарений іншими подіями тижня. Насправді,
Ось ще одне: Ply вже зламав систему безпеки Meta Llama 4. Схоже, жодна модель не може встояти, якщо Ply поруч.
Новачок у світі генерації зображень – HighDream AI
Переходячи до візуального, з’явилася нова модель для генерації зображень – HighDream AI. Вона має припустимо, три варіанти: для повної якості, для розробників та для швидкої генерації. Ліцензія – MIT, але текстовий кодер базується на. Llama 3, дивіться, що натякає на ліцензію Llama 3. Очевидно, все інше – повністю відкрите джерело.
Модель вимагає значного об’єму відеопам’яті (VRAM), але якщо вірити бенчмаркам. (а я не рекомендую покладатися на них сліпо), результати виглядають багатообіцяючими. Навіть обганяє Dolly 3, SDXL, Flux та та не надто. Потрібно пам’ятати, що посилання Hugging Face використовують квантовану версію, що не повністю відображає можливості найпотужнішої версії моделі.
У тесті з важким запитом, HighDream AI впорався блискуче. Прекрасно втілив текст, персонаж виглядає реалістично, без “AI розмитості”. Тло – середнє, але модель справила враження. Простіше кажучи, за посиланням можна протестувати HighDream AI безкоштовно на Hugging Face, що вже добре!
Flux. Звичайно, 1 та стилізація зображень
Далі у нас – модель генерації зображень, але вже для стилізації. Вона намагається бути слухайте, схожою на стилізацію, що є у GPT4 Omni. Вона побудована на основі Flux. 1 – чудовій основі. Хоча багато хто говорить, що модель не ідеально переносить стиль на оригінальне зображення, або принаймні, не так добре, як GPT4O. Все одно, вона показує непогані результати для дифузійної моделі, а не авторегресійної. Зрозуміло,
Експеримент показав доволі добрий результат, хоча й радить підкоригувати налаштування. Як і у попередньому випадку, модель доступна безкоштовно на Hugging Face. Безумовно, приклад – моя гіфка у стилі Гіблі. Це не ідеально, не зрівняється з GPT4O, але швидше. А ще – повністю відкритий код і ліцензія Apache 2. Чесно кажучи, 0!
Google: Пакунок Новинок
Google цього тижня показав велику кількість цікавинок. Чесно кажучи, у минулому відео я розглянула більшу їх частину, але. Чесно кажучи, є щось, що залишилось поза увагою, або отримало нові коментарі. Звичайно,
Першою і найважливішою була Firebase Studio – платформа для кодування в стилі AI. Її мета – автоматизація багатьох типових процесів кодування. Вона використовує Gemini, але не 2. 5 Pro, яка дуже сильна для кодування. Використовується слабша модель, що призводить до не дуже втішних прикладів. Користувачі не надто добре відгукуються в коментарях, пишуть, що Firebase Studio ще потребує доопрацювання.
Наприклад, Flavio спробував згенерувати програму, і нічого доброго не вийшло. Фактично, menroy стверджує, що у нього працює краще, хоча на етапі запуску виникали деякі проблеми з середовищем. Firebase Studio виглядає дуже перспективно, але наразі перебуває на стадії розробки.
Також, були й інші новини. Chubby додав деякі, що я пропустила: оновлена генерація зображень. In3, скоро з’явиться текст у музику, працюють над клонуванням голосу. Щоб було ясно, gemini 2 тому 5 Flash вже доступна, в такому дусі. Від Google було багато випусків, і майже все було цікавим!
Ironwood: Новий TPU для інференсу
Ще один аспект, який я не. Згадала у попередньому дописі, – новий TPU, побудований для інференсу штучного інтелекту. Зрозуміло, він зветься Ironwood, це їхнє шосте покоління TPU, 192 ГБ. ОЗУ на чіп і в 4,5 рази швидший доступ до даних.
Багато великих компаній, які займаються штучним інтелектом, шукають альтернативні методи Nvidia GPU, дешевші способи інференсу AI. Ironwood виглядає як серйозний конкурент.
Також, Google офіційно випустила V2 публічно, і ним можна користуватися в Gemini (тестувала, вражена). Звісно, немає завантаження зображень в Gemini – невелика незручність, але V2 – це чудова модель. API має функції inpainting та outpainting, що неймовірно здорово.
З’являються налаштування камери, наприклад, панорамування вправо, що дуже корисно для професійної діяльності команди, яка хоче створити рекламу або історію, великі групи людей, які працюють з цими системами на більш високому рівні. Також, є перший і останній кадри через API. Приємно бачити, що Google робить V2 публічним через API, враховуючи, на скільки гарна ця модель.
Gemini 4 Turbo: Швидкість та доступність
Gen 4 Turbo тепер також доступна. Минулого тижня ми говорили про офіційний повний випуск Gen 4, але зараз є. Фактично, turbo-модель, яка у п’ять разів швидша та вдвічі дешевша за оригінальну Gen 4. Звісно, якість та узгодженість з підказками не найкраща у порівнянні з Gen 4, але вона дозволяє швидко генерувати ідеї. Якість – тобто, доволі непогана для turbo-моделі. Щоб було дивіться, ясно,
Приклад: зганьблений удар блискавки. Модель погано справляється з великим рухом, якщо це не люди. У бачите, відео-прикладах видно, як це спрацьовує. Runway ML ніколи в принципі, не була одним з кращих генераторів відео для анімації, типу того. Можна побачити, як модель справляється з більш складними підказками. Зрозуміло, я спробувала спробувати зловити лимон, і вичавити сік у рот, і це призвело до створення досить дивних відео. Зрозуміло, turbo-модель все ж таки зберегла мою цілісність в усіх кадрах.
Нові горизонти відеогенерації
У світі AI video-генерації – нові новини. Новий папір, 1-хвилинна генерація відео з тренуванням у реальному часі. Детальний огляд розумієте, показав, що ця штука генерує мультфільми про Тома та. Простіше кажучи, джеррі, тривалістю в 1 хвилину, але їх можна розширити до 5-10 хвилин.
Папір дуже перспективний – історії узгоджені, герої взаємодіють так, як мають. Джеррі та один з них відключає комп’ютер, і Том злиться та починає. Шукати, що сталося – як у класичних серіях про Тома і Джеррі. Дуже вражаюче.
Раджу переглянути це відео проте на мою думку, цей документ недооцінили.
Higsfield AI: Контроль над камерою
Higsfield AI теж має оновлення. Це нова компанія, що випускає нову модель генерації відео. AI, яка зосереджена на різних методах та роботі з камерою. Тепер тобто, вони додають ще більше! Цікаво, можна, поєднуючи кілька елементів керування рухом в одному кадрі, навіть такі, які неможливі у реальних камерах. Це вражає.
Також, вони випускають 10 нових елементів управління рухом, розроблених для швидкості, напруги та кінематографічного впливу. Якщо контроль над камерою – головне для вас у генерації відео з AI, Higsfield AI – найкращий варіант. Є багато прикладів проте
Експеримент з вибухом. Зрозуміло, хтось вибухає на фоні. Дивимось, капелюх злітає з її голови – епічно! Кран та масштабування – теж непогано. Чесно кажучи,
Якщо робота з камерою має велике значення. Для вас, ця програма має бути у вашому списку.
LTX Studio: Персонажі оживають
У сфері відеогенерації, LTX Studio нарешті додано персонажі. Можна створювати власні персонажі AI, використовуючи свої референсні зображення, і підтримувати узгодженість облич, виходів та стилів у кожному кадрі з LTX Studio.
Якщо ви фанат LTX Studio, розкажіть, чи давно ви мріяли про цю функцію. Цікаво, один з моїх недоліків щодо LTX уявіть собі, Studio. Був той факт, що персонажі не були достатньо узгодженими. Варто поглянути. Фактично, приклад з рудоволосою дівчиною – супер узгодженість. Це зберігає її очі, веснянки, усі деталі обличчя.
11 Labs: Новини у світі аудіо
11 Labs підготували декілька оновлень. Новий сервер MCP дає доступ Claude та Курсору до повної платформи 11 Labs AI audio і дозволяє їх підключити за допомогою текстових підказок. Цікаво,
Класно та просто! Якщо ви використовуєте Clott Cursor, ви можете налаштувати голосових агентів. Для здійснення вихідних уявіть собі, дзвінків, наприклад, от, замовлення піци, або інші варіанти.
Також, додали ще приклади: простий текст у мовлення, мовлення. У текст, створення індивідуальних AI-голосів або розмовних динамічних голосових агентів. Чесно кажучи,
11Labs оновила своє бачите, професійне клонування голосу, дозволяючи створювати високоякісні озвучення, які максимально нагадують ваш голос. 11 Labs був головним конкурентом у галузі перетворення. Тексту в мовлення, ще з часів зародження штучного інтелекту. Я використовувала їхнє професійне клонування голосу раніше, і воно дуже гарне та популярне. Справа в тому, що
Нова версія професійного голосу, що полегшує створення майже ідеальної відповідності вашого голосу, неймовірно захоплює. Хочу протестувати. 11 Labs – класне оновлення хоча
Повідомлення для вас. Я з такою швидкістю охоплюю новини, що просто шаленіємо від кількості подій. Якщо ви хочете, аби я детальніше щось розглянула, розкажіть у коментарях, пояснюючи, що саме вас зацікавило. Наприклад, професійне клонування голосу.
Minecraft: Дифузія та Асистент
Тепер – декілька класних демонстрацій Minecraft.
Voxal Diffusion в Minecraft. Це з Reddit stable diffusion, приблизно так. Починаємо з хаотичного шуму з блоків, а потім дифузія перетворює його на тривимірну структуру будинку. Ми звикли до дифузійних моделей, які генерують відео або двовимірні зображення, але вони можуть працювати і в 3D. Наскільки це круто? Приклади – генерація будинків, хотіла б спробувати згенерувати щось унікальне, статуї.
Другий приклад. Асистент AI, що динамічно грає з вами в Minecraft. Якщо ви будуєте будинок, він зрозуміє, що ви робите, і. Почне допомагати, використовуючи ті самі блоки, намагаючись відповідати вашим шаблонам. Шалено! Цікаво,
Асистент не був навчений з RLHF, а працює з помічниками у грі. Це кращий шлях для створення агентів AI. На відміну від RLHF, допомога у грі явно розглядає взаємодію користувача та асистента як гру для двох гравців, де користувач знає свою мету, а помічник – ні. Ця модель розроблена для спілкування про мету користувача та співпрацю для її досягнення.
Це теж безумство. Він демонструє нову корисну поведінку, активне навчання та навчання за виправленнями. Асистент будує стіни на один знаєте, блок вище, щоб дізнатися, чи почне, якось так. Користувач розбивати їх, кажучи: “Ні, я не хочу, щоб дах був таким”. Після цього помічник вчиться та починає ламати блоки. Щоб було ясно, неймовірно! Зрозуміло,
Grok 3: Все ще вражаючий
API Grok приблизно, 3 нарешті доступний, і ціна не така вже й страшна. Є декілька моделей: Grok 3 beta, Grok 3 fast beta, Grok 3 mini beta та Grok 3 mini fast beta.
Найдорожча модель – Grok 3 fast beta. Для текстового введення ціна 5 доларів, дивіться, а для завершення тексту – 25 доларів за 1 мільйон токенів. Звичайна Grok 3 beta – 3 долари за 1 мільйон токенів введення та 15 доларів за 1 мільйон токенів виведення.
Grok 3 Mini бачите, – 30 центів за 1 мільйон. Вхідних токенів та 50 центів за 1 мільйон вихідних токенів. Зрозуміло, готовий до конкуренції. Mini fast beta виявилася вдвічі дорожчою лише для вихідних маркерів. Цікаво, не знаю.
Добре те, що всі вони мають однакову довжину контексту, 131000 токенів, що досить багато.
Epoch AI також провела власні незалежні оцінки Grok 3. Тепер, коли у нього є API, він все ще добре працює. Grok 3 Mini з низькою уявіть собі, логікою не набагато відстає від Claude 3, приблизно так. 7 Sonnet.
Дивно, бачите, але всі ці моделі Grock перевищують GPT 4. До речі, 5 та старішу Claude 3 тому 7 Sonnet без жодної розумової діяльності. Gemini 2. 5 Pro неможливо наздогнати, але я вражена, наскільки хороші ці моделі насправді. Здається, що їх от, постійно оновлюють і добре допрацьовують для випуску API, приблизно так.
OpenAI: Нове у ChatGPT та Загрози Новим Моделям
– новини від OpenAI. Більше того, нова скажімо, опція для ChatGPT: розширена пам’ять. Він тепер може посилатися на всі ваші минулі чати, щоб забезпечити більш персоналізовані відповіді. Використовує ваші уподобання та інтереси, щоб дати важливі відповіді. Розуміє вашу особистість, те, як ви ставите питання, і може робити. Досить точні висновки, виходячи з того, як ви спілкуєтеся з ChatGPT. До речі,
Він базується на збережених пам’ятях, але буде посилатися на минулі, щоб знаходити релевантні відповіді. Робить взаємодію розумнішою та більш індивідуальною. Можна відмовитися або вимкнути її. У моєму випадку, він багато чому навчиться про вас. Дуже точно описує вас, виходячи з ваших діалогів.
Є невеличкі глюки, коли я питаю про щось. Дуже конкретне, але він швидко все виправляє, що дуже добре. Дивовижно точна інформація. Розповість речі, про які ви навіть не здогадуєтесь. Дуже дивно.
На основі мого спілкування, я знаю багато чого про себе. Це дало мені певну різновидність, погляд на те, як я виглядаю в очах інших людей, або як дуже розумна людина розбере мене як особистість. Знання себе часто може підвищити продуктивність чи творчість.
Спробуйте різні підказки.
Це вже є у ChatGPT проте багато хто має доступ. Більше того, також, OpenAI готує до випуску три нові моделі. Ми наприклад, вже давно про це говоримо. Багато дивіться, хто каже, що це буде вже наступного тижня. 04 Mini, 04 Mini High та велика 03, яка має бути передовою. Цікаво, що OpenAI покаже.
Подейкують – і ставтесь до цього з обережністю. – що Sam вимагає швидше випустити ці моделі наступного тижня. Немає підтвердження, але є цитати: “Це рецепт катастрофи”. Але знов-таки, ставтесь до цього з обережністю.
OpenAI ретельно стежить за оцінкою безпеки, і OpenAI зазвичай проводить доволі пристойні оцінки безпеки, якщо це турбує. Але всі ці моделі будуть негайно зламані, як тільки їх випустять. Чесно кажучи, стежте за розумієте, Ply в X, він все зламає, в такому дусі. Безпека не має великого значення, коли ви можете ввести. Більше того, підказку в модель від Ply, і модель негайно зламають.
Заключення
Ще один приємний момент: Olama тусується із Sam Altman. Вони кажуть: “Давайте зробимо open source” проте вони подарували йому кружку Olama. Olama отримав також кружку OpenAI та схоже, вони спілкуються. Це потенційно може бути пов’язано з тим, що OpenAI хоче випустити. Потужну велику мовну модель з відкритим доступом з гарною ліцензією незабаром.
Я дуже слухайте, сподіваюся, що OpenAI досягне успіху, і ліцензія буде задовільною. Насправді, ми хочемо будувати та прискорювати.
Дякую за перегляд і якщо я щось пропустила, дайте знати. Тобто, Яка тема для вас найцікавіша? Я з радістю заглиблюсь детальніше у все це.
от,
Гарних вихідних, до зустрічі!