Нова Ера Візуальної Креативності: OpenAI Запускає Нативну Генерацію Зображень
Світ штучного інтелекту знову здригнувся від інновацій, адже OpenAI, немов грім серед ясного неба, представила власну систему нативної генерації зображень. Вона доступна в ChatGpt та Sora на всіх платформах і для всіх рівнів підписки Chat GPT. Можливості цієї новинки вражають уяву, змушуючи замислитись, чи варто взагалі повертатися до традиційних дифузійних генераторів зображень.
Грег Брокман, президент і співзасновник OpenAI, поділився тизером, що демонструє можливості нової технології. На перший погляд, це просто реалістичне зображення, але придивіться уважніше: текст на дошці, логотип OpenAI на футболці – все це згенеровано штучним інтелектом.
Як Це Працює?
Нативна генерація зображень OpenAI базується на великій авторегресивній трансформаторній моделі, схожій на LLM, але навченій не лише на текстових даних, а й на парах текст-зображення, а також аудіо. Ця модель, по суті, є великою мовною моделлю, здатною не лише розуміти зображення, але й генерувати їх. Ця функція, за словами розробників, була прихована в моделі довгий час, і лише зараз OpenAI відкриває до неї доступ.
На відміну від традиційних дифузійних моделей, натренованих на парах текст-зображення, нативна генерація OpenAI розуміє природну мову, що дозволяє їй краще інтерпретувати запити користувача. Це відкриває нові можливості для редагування зображень, забезпечення консистентності персонажів та внесення тонких змін. Величезний обсяг текстових даних, на яких вона була навчена, дає їй неперевершене розуміння світу і, відповідно, того, які зображення ви хочете створити.
Приклади, Що Вражають
Ігор Пагані, відомий YouTube-блогер, продемонстрував, як можна завантажити своє фото і перетворити себе на кого завгодно. Він, наприклад, став пожежником. Раніше для цього знадобилося б тривале навчання моделі, а тепер це робиться миттєво.
Фабіан попросив GPT4.5 створити багатопанельну мангу про саму себе. Згенерований текст був вражаюче точним і без помилок, а персонаж був консистентним на всіх панелях. Модель продемонструвала свою здатність генерувати не лише фотореалістичні зображення, але й чудові манга-панелі.
Танішк вразив усіх, коли GPT40 в один момент створив інфографіку, що пояснює, чому в Сан-Франциско так часто буває туман. З точними описами, повними реченнями та правильною візуалізацією. Жодна традиційна дифузійна модель не здатна на таке.
Лукас показав діаграму, згенеровану штучним інтелектом, яка пояснює, як намалювати сову. Інструкція була майже ідеальною, з графічним поясненням кожного кроку.
Патрік створив набір Lego з усіма технологічними “оверлордами”: Microsoft, Google, Apple, Sam Alultman з OpenAI, Elon, Mark, Jensen. Усі персонажі були впізнавані та деталізовані.
Plenty the Liberator навіть зміг обійти обмеження моделі та створити зображення з оголеною натурою. Він також продемонстрував, як легко генерувати фейкові ID-картки, документи та підписи.
Jacob Pel показав, як швидко можна створити рекламу, завантаживши фото гаманця Ridge. Результат вийшов майже ідеальним, з ретро-стилем, що привертає увагу.
Спільнота в Захваті
Спільнота шанувальників активно тестує нову модель, розкриваючи її неймовірний потенціал. На сервері Discord можна знайти безліч вражаючих прикладів.
Один з користувачів згенерував зображення, де автор танцює з золотистим ретривером в одязі з логотипом OpenAI. Зображення вийшло реалістичним, з правильним розташуванням логотипів.
Danny9 створив піксель-арт анімацію ходьби персонажа. Хоча вона не ідеальна, але для дифузійної моделі такий результат вимагає великої підготовки.
Whoosh вразив усіх меню кібернетичного акули, де всі страви – рибні. Він також показав, як можна створити консистентного персонажа (пінгвіна з мечем і щитом) у різних стилях – низькополігональному, гіперреалістичному та кристалічному.
Maddie створила зображення з гри Undertale з усіма правильними рухами персонажів.
Модель також здатна генерувати меми з захищеними авторським правом персонажами. Whoosh створив безліч логотипів для Matt Vid Pro AI у різних стилях.
Wolfie провів складний тест: він попросив згенерувати зображення з 16 об’єктами, розташованими в сітці 4×4 згідно зі списком. Модель правильно згенерувала всі об’єкти, хоча деякі з них були не на своїх місцях.
Whoosh створив комікс про хлопця, який перетворюється на ящірку, а також шаблон для карткової гри. Він навіть зміг змінити стиль картки з вогняного на водяний.
Інші приклади включають 3D рендери, перетворені на реальні 3D рендери, автомат для гри в пінбол на тему McDonald’s, об’єднання двох персонажів в один, обкладинки журналу Vanity Fair, діпфейки на тему Mark Robber та перетворення автора на Мегамозку.
Експерименти Автора
Автор також провів власні експерименти з новою моделлю. Він завантажив фотографії собаки своїх батьків і попросив створити діаграму з його характеристиками. Модель впоралася з завданням чудово, навіть правильно визначила породу і вік.
Далі автор попросив створити постер до екшн-фільму з ним у головній ролі під назвою “Matt Vidpro in the Lost Lemon”. Результат вразив: постер в стилі Індіани Джонса з ним в образі шукача пригод.
Автор також попросив згенерувати фотографію Папи Римського, що курить косяк зі Снуп Доггом. Зображення вийшло абсурдним, але реалістичним.
Інші експерименти включали створення детального зображення комп’ютерних компонентів на білому фоні, світлини з прибульцем в McDonald’s та мему про істоту, що розставляє червоні кулі Target.
Висновок
Нативна генерація зображень OpenAI – це революція у світі штучного інтелекту. Її можливості вражають, змушуючи замислитись про майбутнє візуальної креативності. Модель не лише проста у використанні, але й генерує кращі зображення, краще розуміє запити користувача та здатна на редагування і створення образів відомих персонажів. Це нова ера, де обмеженням є не можливості технології, а лише наша уява.