Штучний інтелект: Від жартів до серйозних проривів
Минулий тиждень був настільки насичений подіями, що важко було відрізнити правду від вигадки, особливо з огляду на День сміху. У світі, де штучний інтелект і так здається чимось неймовірним, з’являються ще й фейкові, неправдоподібні новини. Наприклад, 1 квітня компанія Eleven Labs запустила text-to-bark, LTX Studio оголосила про придбання Sora від OpenAI та планувала відкрити її вихідний код, а OpenAI випустила новий голос у ChatGPT, який, здається, не дуже радий вас чути.
Тож, здебільшого, я ігнорувала все, що з’являлося в День сміху, а наступного дня перевіряла, що було реальним. І поки я випускаю це відео, я перебуваю на заході Microsoft, присвяченому 50-річчю компанії в Сіетлі. Більшість новин я записую в середу, але ви можете бачити, як я іноді перестрибую до свого готельного номера, щоб додати деякі оновлення наприкінці тижня про будь-які додаткові новини, що з’явилися. Але не буду гаяти ваш час, перейдемо до реальних новин, що відбулися цього тижня.
ChatGPT стає доступнішим
Почнемо з новин, які, ймовірно, багатьох схвилювали після появи величезної кількості зображень у стилі Ghibli. Ідеально, якщо ви подивилися моє нещодавнє відео, де я показала понад 50 способів використання цієї нової моделі ChatGPT, але ChatGPT фактично випустила цю модель для безкоштовних користувачів. Звичайно, є деякі обмеження. В жодній з новин або документів OpenAI про це не йдеться, але Сем Альтман раніше казав, що користувачі безкоштовного рівня отримуватимуть три зображення на день. І коли The Verge протестував це, то саме так і було: три зображення на день.
Через шаленство навколо нової моделі генерації зображень ChatGPT, соціальні мережі заполонили згенеровані штучним інтелектом зображення. У ChatGPT був найбільший день в історії. Сем Альтман написав у X, що запуск ChatGPT 26 місяців тому був одним з найбожевільніших вірусних моментів, які він коли-небудь бачив. Тоді вони додали 1 мільйон користувачів за 5 днів. Після останнього запуску вони додали 1 мільйон користувачів за 1 годину!
Незважаючи на те, що сервіс доступний як для платних, так і для безкоштовних користувачів, Альтман попереджає, що анонси від OpenAI, ймовірно, сповільняться через перевантаження серверів. Він написав у X: “Ми беремо ситуацію під контроль, але очікуйте, що нові випуски від OpenAI будуть затримуватися, щось буде ламатися, а сервіс іноді буде повільним, оскільки ми вирішуємо проблеми з пропускною здатністю”.
Сподіваюся, це допоможе їм взяти все під контроль, адже OpenAI цього тижня залучила ще 40 мільярдів доларів під керівництвом SoftBank, досягнувши оцінки в 300 мільярдів доларів. Сподіваюся, частина цих грошей піде на графічні процесори та центри обробки даних, щоб взяти ситуацію під контроль через попит, з яким вони зараз мають справу.
OpenAI також оголосила цього тижня, що ChatGPT Plus (план за 20 доларів на місяць) тепер безкоштовний для студентів коледжів у США та Канаді до травня.
Раз вже ми говоримо про OpenAI, варто згадати ще одну новину. Вони планують випустити ще одну відкриту мовну модель. На веб-сайті OpenAI з’явилася сторінка, де йдеться: “Ми плануємо випустити нашу першу відкриту мовну модель після GPT2 найближчими місяцями. Ми раді співпрацювати з розробниками, дослідниками та широкою спільнотою, щоб зібрати відгуки та зробити цю модель якомога кориснішою. Якщо ви зацікавлені в приєднанні до сесії зворотного зв’язку з командою OpenAI, будь ласка, повідомте нам”. І вони опублікували форму.
Сем також поділився цим дописом у X, написавши: “Коротко: ми раді випустити потужну нову мовну модель з відкритим кодом і міркуваннями найближчими місяцями і хочемо поговорити з розробниками про те, як зробити її максимально корисною. Ми прагнемо зробити цю модель дуже, дуже хорошою”. Не знаю, навіщо потрібен цей “коротко”, бо цей твіт майже такий же довгий, як і сам допис. Але, враховуючи, що моделі з відкритим кодом стають все кращими і кращими, і коментарі Сема кілька місяців тому про те, що він відчуває, що вони, можливо, обрали неправильний підхід, не випускаючи відкритий код, вони, здається, трохи змінюють свою політику і планують випустити більше матеріалів як відкриті моделі.
І останнє, що зробила OpenAI цього тижня, – це таємно запустила OpenAI Academy. Не було жодних гучних фанфар або оголошень з цього приводу, але якщо ви зайдете на academy.openai.com, ви знайдете навчальні ресурси про те, як використовувати штучний інтелект, зокрема, штучний інтелект для літніх людей, автоматизація графів знань за допомогою RAG, штучний інтелект для некомерційних організацій та багато іншого. Все це, схоже, онлайн-тренінги, але у них також є розділ з контентом, що містить попередньо записані навчальні матеріали.
І швидко, перш ніж я перейду від розмов про OpenAI, китайська модель Ernie 4.5, очевидно, обігнала GPT4.5 у шахах. Ernie 4.5 зіграла з ChatGPT у матчі з трьох ігор. І, очевидно, ця модель Ernie перемогла GPT 4.5 тричі з трьох.
Google не відстає
Google також зробила свою найкращу модель безкоштовною цього тижня, випустивши Gemini 2.5 для всіх безкоштовних користувачів. Тож, якщо ви перейдете на gemini.google.com, у випадаючому списку ви побачите 2.5 Pro Experimental. І це дійсно хороша модель. Я говорила про це в попередніх відео. Вона чудова в коді і має контекстне вікно в мільйон токенів, тобто ви можете вводити і виводити близько 750 000 слів, що робить її чудовою для кодування, тому що ви можете вводити величезні кодові бази і вона зрозуміє всю кодову базу.
Google також випустила деякі оновлення для Notebook LM. Вам більше не потрібно надавати багато джерел, які ви хочете, щоб він використовував для створення контенту, навколо якого ви збираєтеся спілкуватися і створювати подкасти. Тепер у нього є нова функція “discover sources”. Коли ви натискаєте кнопку “discover” в Notebook LM, ви можете описати тему, яка вас цікавить, і Notebook LM поверне підібрану колекцію відповідних джерел з Інтернету. Ви можете додати ці джерела до свого блокнота одним кліком.
За ідеєю, коли ви заходите в Notebook LM, під джерелами має бути кнопка “discover sources” згідно з їхніми інструкціями, але я її ще не бачу. Тож, це, мабуть, поступове розгортання. Згідно з словами Джоша Вудворда, віце-президента Google Labs, за останні 10 днів Notebook LM отримав інтелектуальні карти, discover sources, краще розуміння PDF-файлів, захист даних корпоративного рівня і посилання на оригінальні джерела. Тож, Notebook LM постійно отримує нові функції.
І, оскільки ми все одно говоримо про Google, хочу згадати, що Google Slides також додала Imagine 3 як опцію для додавання зображень у ваші слайди.
Amazon вступає в гру AI-агентів
Amazon також вступає в гру AI-агентів зі своїм Nova Act. Це спроба Amazon протистояти Operator від OpenAI та Computer Use від Anthropic або чомусь подібному до Manis, яке ми бачили. На даний момент він доступний для розробників на nova.amazon.com. У Nova є звичайна опція чату, область генерації зображень, а під “Labs” є “Act”.
У короткому демонстраційному відео показано, як система “мислить”. Можна побачити, як вводяться дані, і мишка рухається і натискає на різні області браузера, вибирає дві спальні, одну ванну кімнату, і браузер автономно робить всі ці кліки. Можна побачити процес мислення, коли він виконує всі дії.
Rabbit обіцяє AI-агентів для вашого комп’ютера
І поки ми говоримо про AI-агентів, компанія Rabbit, яка виробляє маленький пристрій Rabbit R1, також робить AI-агентів, які можуть використовувати ваш комп’ютер, але вам більше не потрібен маленький пристрій Rabbit. Вони називають цього нового агента Rabbit OS intern, тому що, за їхніми словами, він зараз на рівні стажера.
У їхньому демонстраційному відео можна побачити, як агенту дають завдання: “Зроби мені інструмент, який дозволить мені робити 16-бітні музичні лупи. Я хочу, щоб було вісім рядів бітів, де я можу розміщувати звуки і т. д.”. Потім він пише, що працює над цим. І потім встановлює покрокові завдання, дуже схожі на ті, що ми бачили з Manis. Потім він створює всі файли коду, дає їм файл index.html, і там у них є додаток, який цей інструмент розробив для них.
Наразі вони відкрили безкоштовну пробну версію оновленої AI-операційної системи. Вона доступна для всіх на веб-сайті Rabbit Hole hole.rabbit.ext протягом обмеженого часу. Власники R1 отримують дев’ять завдань на день, а всі інші – три.
Я зайшла в систему, щоб протестувати її, і використаю один з прикладів підказок, аналіз фінансових показників компанії. Наприклад, чи є у Tesla здатність досягти ринкової капіталізації в 10 трильйонів доларів. Подивимося, що він зробить.
Він ставить мені уточнюючі питання. Схоже, для аналізу основних показників Tesla і оцінки потенціалу досягнення ринкової капіталізації в 10 трильйонів доларів потрібно охопити наступні області. Якщо у вас є будь-які конкретні дані або джерела, які ви хочете, щоб я включила, будь ласка, повідомте мені. Просто скажу, щоб він почав.
Зараз він починає генерацію плану, створює завдання “зібрати та проаналізувати історичні фінансові дані Tesla”. Завдання ініційовано. І якщо ми подивимося ліворуч, ми побачимо список завдань. Він збирається зібрати і проаналізувати історичні фінансові дані Tesla, проаналізувати еволюцію частки ринку Tesla і структуру портфеля продуктів, оцінити позицію Tesla в глобальних ІТ-витратах і технологічному секторі, оцінити потенціал Tesla для досягнення 10 трильйонів ринкової вартості, скомпілювати весь аналіз в остаточний всебічний звіт. І, як ми бачимо, він виконує всі ці дії прямо зараз. Робочий процес дуже схожий на те, що ми бачили з Manis. Я, мабуть, прискорю процес і повідомлю вам про результат.
Все це зайняло 15 хвилин. Я відійшла, поробила інші речі, а потім повернулася, і процес все ще тривав. Але, як бачите, він виконав усі завдання і згенерував різні файли markdown. Можна повернутися і переглянути весь процес. В кінці ми отримали цей остаточний звіт. У нас є огляд, остаточний вихід, пояснення файлів, і ключові висновки. Схоже, він проаналізував дані лише за 2023 рік. Зараз 2025 рік. Не знаю, чому він не отримав дані хоча б за минулий рік. І потім дає інструкції щодо використання звіту разом зі структурою звіту.
Хлопці з Rabbit написали мені і повідомили про це оновлення, додавши, що їхньою метою є спроба принести технології, настільки ж хороші, як Manis, до США.
XAI купує X
Цього тижня з’явилася цікава новина від X. XAI придбала X, соціальну медіаплатформу. XAI оцінили у 80 мільярдів доларів, а X – у 33 мільярди. По суті, Ілон Маск продав компанію Ілона Маска Ілону Маску. Ідея полягає в тому, що якщо XAI володіє X, соціальною медіаплатформою, то XAI не потрібно буде обходити жодні лазівки або бюрократичні перешкоди, щоб мати можливість використовувати дані, що належать X.
Apple розширює можливості інтелекту
Кілька новин від Apple цього тижня. Деякі функції Apple Intelligence були розширені на нові мови та регіони. Їхні функції штучного інтелекту тепер доступні французькою, німецькою, італійською, португальською, іспанською, японською, корейською, китайською мовами, а також локалізованою англійською для Сінгапуру та Індії. Функції Apple Intelligence тепер доступні в ЄС.
Вони також додали Apple Intelligence в Apple Vision Pro з оновленням Vision OS 2.4. Тож тепер, якщо ви робите такі речі, як написання електронних листів у Apple Vision Pro, у вас є функції штучного інтелекту у вашому електронному листі. У вас є доступ до image playground, де ви можете генерувати зображення всередині Apple Vision Pro. Ви можете генерувати Genojis в Apple Vision Pro. Існує пошук природною мовою у ваших фотографіях. І багато функцій Apple Intelligence, які вони просували для iPad та iPhone, тепер доступні в Apple Vision Pro.
Adobe Firefly: Нова ера генерації відео
Для цього відео я співпрацюю з Adobe Firefly, щоб познайомити вас з чимось дивовижним, що вони щойно запустили: новий generate video на базі нової відеомоделі Firefly. Adobe Firefly пропонує потужні інструменти штучного інтелекту, спеціально розроблені для творців, яким потрібен комерційно безпечний контент, готовий до виробництва. Що саме означає “комерційно безпечний”? Adobe Firefly навчається виключно на ліцензованому контенті, такому як зображення Adobe Stock і загальнодоступні ресурси. Це гарантує, що все, створене за допомогою Firefly, безпечне для комерційного, професійного або освітнього використання. Для творців знання того, що ваша робота отримана з відповідальних джерел, може бути великою перевагою.
Тож, давайте заглибимося в generate video і подивимося, як це може допомогти творцям. Ви можете легко створювати динамічні відео з роздільною здатністю 1080p, просто використовуючи текстові підказки або еталонні зображення. Уявіть, що ви працюєте над проєктом і вам потрібен спеціальний B-roll кліп, драматичний кадр з дрона, що пролітає над гамірним міським пейзажем на заході сонця, наприклад. Замість того, щоб витрачати години на пошук у стокових відео, ви можете використовувати Firefly для швидкого створення потрібного кліпу, ввівши опис і встановивши параметри, такі як кут камери, швидкість руху і освітлення.
Особливо корисна інтеграція Firefly з додатками Adobe Creative Cloud. Після створення власного кадру його можна імпортувати безпосередньо в Premiere Pro і плавно вставити в часову шкалу редагування. Потрібні атмосферні елементи, такі як відблиски лінз або дим? Firefly може згенерувати і їх. Легко змішуючи їх з вашим оригінальним кадром при імпорті в Premiere Pro або After Effects.
Інша вражаюча можливість – створення анімації. Припустимо, у вас є ескізи або розкадровки, які ви хотіли б анімувати. За допомогою Firefly ви можете завантажувати ці еталонні зображення, встановлювати початкові та кінцеві кадри і генерувати анімовані послідовності, які допоможуть візуалізувати ваші творчі концепції. Ви можете додатково налаштувати ці анімації за допомогою детальних інструментів редагування в After Effects.
Підхід Adobe до відповідальної інновації в галузі штучного інтелекту підкреслює прозорість, підзвітність і повагу до прав творців. Це означає, що ви можете впевнено інтегрувати штучний інтелект у свій робочий процес, знаючи, що Adobe активно підтримує творців і поважає авторські права. Якщо ви зацікавлені в тому, щоб дізнатися, що може робити Adobe Firefly, перегляньте Generate Video в новому веб-додатку Adobe Firefly. Він зручний, інтуїтивно зрозумілий і може допомогти покращити ваші творчі проєкти. Відвідайте firefly.adobe.com і спробуйте його самі.
Раз вже ми говоримо про Adobe, вони щойно випустили функцію в Premiere Pro, де ви можете використовувати штучний інтелект для розширення відео. Це дійсно крута функція. Це функція, за допомогою якої, скажімо, у вас є B-roll у вашому відео, але B-roll занадто короткий, приблизно на 1 секунду. Ви можете фактично розширити це відео на часовій шкалі, і воно згенерує кілька додаткових кадрів на основі того, що бачило раніше. Якщо у вашому відео є звукові ефекти, але вони тривають недостатньо довго, ви можете використовувати штучний інтелект, щоб згенерувати більше звукових ефектів або довший звуковий трек. Це дійсно корисні функції редагування для людей, які редагують в Adobe Premiere.
Хвиля інновацій у створенні відео за допомогою AI
Цього тижня відбулася величезна кількість оновлень у AI-відео, починаючи з нової моделі Gen 4 від Runway. Я планую випустити відео, де спробую порівняти всі доступні відеомоделі та визначити, яка з них найкраща для яких типів відео. І тепер, коли Runway Gen 4 тут, у нас є нова модель для порівняння.
Якщо у вас є обліковий запис Runway, ви можете увійти в Runway, натиснути generate video під моделлю. Схоже, Gen 4 працює тільки з image-to-video. Я не можу ввести просто текстову підказку. Але я можу натиснути create an image, згенерувати зображення, скажімо, вовка, що виє на місяць, натиснути generate, і у нас є кілька пристойних початкових зображень. Давайте використаємо верхнє ліве. У нас вже встановлено gen 4. І якщо ми хочемо, ми можемо описати наш кадр. Просто введемо ту саму підказку: вовк виє на місяць. Натискаємо generate. Приблизно через хвилину-дві у мене є 5-секундне відео вовка, що виє на місяць. Виглядає досить добре, мені подобається додаткова пара і те, як вовк тікає. Це нові елементи, яких я не бачила раніше, коли робила таку генерацію.
Спробуємо мавпу на роликових ковзанах і згенеруємо це як наше початкове зображення. Мені подобається те, де мавпа на пляжі. Давайте використаємо його для відео. І ось що ми отримали. Мавпа танцює на роликових ковзанах. І фактично згенерувалися хвилі, що розбиваються на задньому плані. Роликові ковзани виглядають трохи дивно, але порівняно з тим, що ми отримували рік тому, це все ще дійсно круто.
З’явилася нова AI-відеомодель під назвою Higsfield AI, яка, за її словами, може робити кінематографічні кадри з bullet time і super dollies і robo arms з одного зображення. Судячи з прикладів, у них є ефект dolly zoom, ефект robo camera, крута панорама, деякі кадри, що виглядають майже як з дрона. Виглядає круто. Ось приклад snory cam, я навіть не знала, що це таке. Кран над головою, риб’яче око, відстеження голови – це досить круто, whip pan shot, through object shot. Ви можете подивитися на higsfield.ai.
У них є безкоштовна пробна версія з безкоштовними генераціями, обмеженим доступом і водяним знаком. Я отримала 25 кредитів, приблизно два відео. За 6 доларів на місяць при щорічній оплаті ви отримуєте близько 15 відео.
Я щойно зайшла в систему і натиснула create. Знову ж таки, схоже, потрібно починати зі зображення. Тут є генератор тексту в зображення. Вкажу “вовк виє на місяць”. Я не намагаюся зробити нічого надто складного в цьому відео. Збережу це для майбутнього. Зображенням трохи не вистачає деталей. Але я натисну на video, і використаю це зображення для відео. І зробимо, як роботизована рука повертається навколо вовка. Подивимося, що вийде.
Я зрозуміла, що якщо я хочу отримати ці різні ефекти, у них є розділ, де написано general. І якщо я натисну change, я можу вибрати ефект. Там є 360 orbit, action run, arc, basketball dunks, buckle up, bullet time, car chasing, car grip, crane down, crane over the head тощо. Мабуть, потрібно було вибрати один з цих ефектів.
Знадобилося кілька хвилин на генерацію. Вийшло краще, ніж я очікувала.
Luma AI розгорнула нові функції для їх генерації відео. Дуже схожі на ті, що ми бачили з crane down, crane up, static orbit, left pan, right pan, pedestal down, pedestal up, pull out, push in тощо. Майже той самий набір функцій, що був представлений Higsfield AI. Сподіваюся, найближчим часом зроблю відео, де детальніше розповім про всі ці новітні можливості.
Korea AI розгорнула нові інструменти, включно з інструментом 3D і повною переробкою свого веб-сайту. Вони також розгорнули можливість редагувати зображення природною мовою. Дуже схоже на те, що ми отримали від chat GPT цього тижня. Ви можете спілкуватися в чаті й редагувати зображення, кажучи, наприклад, “помістіть машину на вершину скелі”. Схоже, вони побачили успіх chat GPT, коли ті розгорнули свої нові функції O4, і розгорнули їх у Craya, використовуючи мовну модель Gemini.
Craya також розгорнула нову функцію video restyle, де ви можете завантажувати відео та змінювати їх на основі будь-якого стилю дизайну, який ви завантажуєте. Дуже схоже на те, що ми бачили з ghiblification chat GPT. Ви можете зробити це з відео.
Meta показала нові дослідження зі своїм mocha, спрямованим на синтез персонажів, які говорять, як у фільмах.
Голоси звучать дійсно добре. Але ліп-сінхронізація ще не ідеальна.
Усі персонажі, що говорять, генеруються виключно на основі мови та тексту.
Це, імовірно, колись стане загальнодоступним.
Згідно з дописом Midjourney від 2 квітня, дуже скоро вийде Midjourney версії 7.
Інновації в аудіо та голосі від ElevenLabs і не тільки
Eleven Labs розгорнула нову функцію actor mode, де ви можете використовувати свій власний голос, щоб керувати delivery scripts.
Miniaax від Halo AI також випустив нову мовну модель, де ви можете перетворити будь-який файл або URL-адресу на реалістичний звук. Ви можете створювати аудіокниги, подкасти тощо, використовуючи до 200 000 символів в одному введенні.
І ця компанія MA випустила новий інструмент для створення музики, схожий на те, що ми отримали від Suno і Udo.
Інструменти для кодування на основі AI
Windsurf drop – інструмент, який я найбільше використовую останнім часом для кодування, drop few functions. Ви можете розгорнути свої додатки безпосередньо з Windsurf, як і Bolt або Lovable. Він генерує повідомлення про зміни для вас, коли ви вносите зміни в GitHub, і має покращену підтримку MCP.
Cognition Labs – компанія, що стоїть за Devon – помічником з AI-кодування за 200 доларів на місяць, щойно випустила нового Devon 2.0 з опцією за 20 доларів.
Мій друг Райлі Браун розгортає додаток Vibe Code, де ви можете створювати власні додатки безпосередньо в мобільному додатку, а потім розгортати та використовувати цей додаток.
Claude також розгорнув Claude for Education, який застосовує інший підхід до штучного інтелекту, де він не просто gives people the answers, він фактично допомагає їм у вирішенні проблем.
Tinder має нову гру на базі штучного інтелекту, де ви намагаєтеся фліртувати з цим додатком і потім він говорить вам, чи готові ви піти і фліртувати з реальними людьми.
Є нова технологія, яка перетворює мозкові хвилі на голос, gives speech to the speechless. Нейропротез “мозок-голос” працює майже одночасно з наміром користувача говорити. Він обробляє мозкові сигнали 80-мілісекундними фрагментами, створюючи мову, яка тече природно, коли людина думає про формування слів.
Meta збирається випустити нові розумні окуляри, як-от Ray-B band Metas, але ці матимуть екран в одному з очей з невеликим heads up display, і вони планують продавати їх за понад 1000 доларів.
Звісно, це не все, новини не перестають з’являтися. Я сподіваюся, вам сподобався цей огляд, і до зустрічі в нових випусках!