AI-тиждень, який змусив світ затамувати подих: від студійного Ghibli до інтелекту Gemini
Цей тиждень у світі штучного інтелекту був настільки насиченим, що, здавалося, ніби ми потрапили у вихор інновацій. Від чарівних трансформацій зображень у стилі студії Ghibli до неймовірних можливостей нової моделі Gemini від Google, кожен день приносив щось приголомшливе. Тож, давайте зануримося в цю феєрію технологій та розберемось, що ж саме змусило нас говорити про AI протягом останніх семи днів.
Ефект Ghibli: коли мрії стають реальністю
Хто б міг подумати, що звичайна нейромережа зможе перетворити наші фотографії на витвори мистецтва у стилі улюбленої студії Ghibli? Нова функція від чат-бота GPT 4.0 відкрила безліч можливостей для творчості, дозволяючи додавати стилі до будь-яких зображень. Соціальні мережі вибухнули від фотографій, стилізованих під аніме шедеври, і я не стала винятком!
Я взяла фотографію з мого життя – щасливий момент придбання нового авто з коханою дружиною – і перетворила її на магічне зображення у стилі Ghibli. Це було неймовірно! А ще, можна редагувати зображення за допомогою текстових підказок. Я попросила зробити фото яскравішим і більш насиченим кольорами, і чат-бот GPT 4.0 з легкістю виконав моє прохання.
Утім, можливості не обмежуються лише стилем Ghibli. Хто сказав, що ви не можете бути персонажем South Park або Minecraft? Чат-бот GPT 4.0 може втілити будь-яку вашу фантазію в життя. Це весело, захопливо та неймовірно! Я навіть попросила створити діаграму Венна, і результат був досить пристойним.
А як щодо інфографіки? Я дала чат-боту GPT 4.0 базовий запит, і він створив інфографіку про те, як працює нейронна мережа. Звичайно, вона не була на 100% точною, але виглядала досить добре, щоб стати відправною точкою для подальшого вдосконалення.
Я також не втрималася від експериментів з улюбленими відеоіграми. Фотографію спортсменів я перетворила на зображення у стилі GTA 5, а свій YouTube-івський мініатюрний ескіз – на ескіз з текстом “Варто?” – вийшло дещо комічно, але, без сумнівів, цікаво.
А якщо вам потрібно прибрати фон зображення та зробити його прозорим? Чат-бот GPT 4.0 з цим теж впорається! Просто попросіть його, і він створить прозорий PNG-файл.
Уявіть собі, що замість використання Photoshop або Canva, ви просто завантажуєте зображення в чат-бот GPT 4.0 і просите змінити його так, як вам заманеться. Це вже не майбутнє, а реальність сьогодення!
На жаль, через шалену популярність цієї функції, її запуск у безкоштовній версії чат-бота GPT було відкладено. Але якщо ви користуєтеся платною версією, то можете насолоджуватися всіма цими можливостями вже зараз.
Gemini 2.5: Інтелект, який вражає
Поки світ захоплювався студійним Ghibli, Google тихенько презентував свою нову модель штучного інтелекту – Gemini 2.5. І, мушу зазначити, вона вражає! За результатами сліпого тестування на LM Arena, Gemini 2.5 перевершила всі інші моделі за багатьма показниками, включаючи науку, математику, кодування, візуальне мислення та роботу з великим обсягом тексту.
Найбільшою перевагою Gemini 2.5 є її контекстне вікно в мільйон токенів, що дорівнює приблизно 750 000 слів. І, що найдивовижніше, ви можете використовувати цю модель абсолютно безкоштовно! Просто перейдіть на AI Studio.google.com, виберіть Gemini 2.5 Pro experimental і починайте експериментувати.
Звісно, Google AI Studio має свої недоліки. На відміну від чат-бота GPT або Claude, він не зберігає вашу попередню історію чатів. Але швидкість і потужність цієї моделі більш ніж компенсують цей недолік.
Щоб продемонструвати можливості Gemini 2.5, я вирішила провести експеримент. Я взяла транскрипцію чотиригодинного відео про машинне навчання з ютуб-каналу Free Code Camp і попросила Gemini 2.5 підсумувати її у вигляді покрокових інструкцій.
Результат був приголомшливим! Gemini 2.5 знадобилося лише 62 секунди, щоб проаналізувати транскрипцію та створити детальний конспект відео. Вона використала лише 5% свого контекстного вікна, що означає, що ви можете завантажувати цілі книги та отримувати їх покроковий аналіз.
На жаль, презентацію Gemini 2.5 дещо затьмарили меми про студію Ghibli. Але я вважаю, що це величезний прорив у світі штучного інтелекту, який заслуговує на більшу увагу.
Навіть сам Сем Альтман, генеральний директор OpenAI, віддав належне Google за їхню нову модель. А це вже багато про що говорить!
Microsoft не відстає: Аналітик на базі AI
Microsoft також не сидить склавши руки. Компанія представила нового дослідника та аналітика в Microsoft 365 Copilot. Цей інструмент використовує модель міні-міркувань OpenAI 03, оптимізовану для розширеного аналізу даних.
Завдяки ланцюжку міркувань, аналітик може ставити уточнюючі питання, як досвідчений колега, і використовувати ваші відповіді для просування вперед. Він аналізує всі ваші робочі дані в Microsoft Graph, а не лише один файл, і будує розуміння вашої продуктової лінійки, посилається на нещодавні зустрічі та навіть бере галузеві оновлення з інтернету.
Уявіть собі, що ви працюєте в маркетингу і намагаєтеся зрозуміти своїх найлояльніших клієнтів. У вас є складний набір даних з тисячами рядків і декількома вкладками з інформацією про клієнтів та їхній щомісячний дохід. За допомогою аналітика ви можете легко отримати необхідну інформацію та візуалізувати свою клієнтську базу.
Microsoft також анонсувала міркування та потоки агентів у Microsoft Copilot Studio, платформі для створення, керування та розгортання агентів для унікальних потреб вашого бізнесу. За допомогою цього інструменту ви можете створювати власних міні-агентів, які працюють з даними вашого бізнесу.
Інші цікаві новини зі світу AI
Окрім цих гучних анонсів, було багато інших цікавих новин зі світу штучного інтелекту, які залишилися в тіні.
- OpenAI покращила модель GPT 4.0. Тепер вона краще слідує детальним інструкціям, особливо якщо запити містять кілька прохань. Вона також краще справляється зі складними технічними задачами та задачами з кодування, має покращену інтуїцію та креативність.
- Google додала нові функції в Google Meet. Функція “Записувати нотатки для мене” тепер може фіксувати наступні дії за підсумками зустрічей і пропонувати подальші кроки. Якщо ви ввімкнете розшифровку стенограми зустрічі, нотатки Gemini будуть прив’язані до відповідної частини стенограми.
- Google додала функцію в Google Maps, яка дозволяє зберігати місця, які ви скрінили на карті, для планування подорожей. Це дуже зручно, якщо ви знайшли цікаве місце в соціальних мережах і хочете додати його до свого маршруту.
- Anthropic планує розширити контекстне вікно Claude 3 Sonnet до 500 000 токенів. Це значно розширить можливості цієї моделі, особливо для тих, хто використовує її для програмування.
- Тепер ви можете використовувати Grog безпосередньо в Telegram, якщо ви підписані на Telegram Premium і X Premium. Це зручно, якщо ви відмовляєтеся використовувати застосунок X.
- Perplexity додала нові вкладки для пошуку зображень, відео, подорожей, покупок тощо. Тепер ви можете легко знайти будь-яку інформацію в одному місці.
Це був лише невеликий огляд найцікавіших новин зі світу штучного інтелекту за останній тиждень. Світ AI розвивається з неймовірною швидкістю, і я з нетерпінням чекаю на те, що принесе нам майбутнє.
AI-відеогенерація: Luma AI, Dream Machine та Pika Labs
У світі AI-відеогенерації також відбулися цікаві оновлення. Luma AI представила нову функцію Magic Doodles, яка дозволяє анімувати ваші малюнки. Це особливо цікаво для дітей, які люблять малювати.
Dream Machine також впровадила функцію Threads, яка допомагає організувати ваш творчий процес і зберігати різні версії одного й того ж активу в одному місці.
Pika Labs представила функцію Flashback, яка дозволяє завантажити відео з вами та фотографію вас, і фотографія з’явиться у кадрі відео. Pika, здається, зосереджується на створенні мем-відео, що може бути їхньою унікальною нішею на фоні інших інструментів для відеогенерації.
Роботи, які вражають
І на завершення, хочу поділитися з вами відео від Boston Dynamics, на якому показано їхнього робота, який бігає, повзає на чотирьох ногах і робить бочки. Ще кілька років тому я б ніколи не повірила, що роботи можуть бути настільки спритними та рухливими.
Тож, що далі?
Цей тиждень був справді вражаючим для світу штучного інтелекту. Нові моделі, нові функції, нові можливості – все це змушує нас задуматися про те, яким буде майбутнє. Штучний інтелект змінює світ навколо нас, і я з нетерпінням чекаю на те, що буде далі.
Якщо ви хочете залишатися в курсі останніх новин зі світу штучного інтелекту, обов’язково підпишіться на мою розсилку. Я буду ділитися з вами найцікавішими інструментами та новинами, щоб ви завжди були в курсі подій.