Нове слово в генерації зображень: OpenAI представляє безіменну сенсацію
Світ штучного інтелекту стрімко еволюціонує, і нещодавно OpenAI зробила значний крок вперед, відмовившись від Dally на користь нової, вражаючої моделі генерації зображень. Хоча вона має певні обмеження та особливості, в ній також приховані цікаві можливості, які неодмінно варто дослідити.
OpenAI представила нову модель генерації зображень, яка… не має назви. Серйозно? OpenAI, у вас стільки варіантів!
Попри відсутність гучного імені, ця модель нарешті виконує обіцянку, закладену ще в Dolly 3: можливість розмовної взаємодії з зображеннями. Новий генератор доступний у ChatGPT та на платформі Sora, і між ними є певні відмінності, які ми розглянемо трохи згодом. А поки що поділюся з вами результатами моїх тестів та спостереженнями, а також цікавими прикладами з спільноти.
Почнемо з нашого давнього знайомого – чоловіка в синьому діловому костюмі. Востаннє ми бачили його на занедбаній залізничній станції, де з’явився вовк. Що ж, схоже, він тікає від нього пустелею в “золоту годину”. Prompt був наступним: “Кінематографічна фотографія чоловіка в синьому діловому костюмі, який тікає від вовка, що переслідує його в пустелі в “золоту годину”. Результат досить вражаючий. Я оцінюю емоції страху на обличчі нашого героя, контекстну обізнаність моделі, чудовий вигляд вовка та деталізований фон. Загалом, відмінне зображення.
Під час тестування я зосереджувався переважно на платформі Sora. Трохи згодом ми розглянемо можливості ChatGPT. Варто відзначити цікавий вибір співвідношення сторін: лише три варіанти – 1:1, 3:2 та 2:3. Не можу сказати, що я в захваті від цього. Однак, є можливість додавати референсні зображення, що є надзвичайно потужною функцією, яку ми розглянемо більш детально. Також можна згенерувати одне, два або чотири зображення. Існують зручні пресети, що пропонують корисні сценарії використання.
Важливо зазначити, що ця модель генерації зображень тяжіє до ілюстрованих та анімованих стилів. Наприклад, мій перший чоловік у синьому діловому костюмі виглядав саме так. Тому мені довелося додати ключове слово “кінематографічний” на початку prompt. Це не проблема, просто варто мати на увазі, якщо ви отримуєте ілюстровані зображення. Гаразд, схоже, ніч настала, і ці двоє подружилися. Радісно бачити таке!
Другий тест був досить простим: “Самурай в “золоту годину”, 35-мм плівка”. Чудовий результат, силует, “золота година”, самурай. Без зауважень.
Продовжуючи з простішими prompt, ось “Фотографія клоуна з бензопилою на дитячій вечірці з нагоди дня народження на задньому дворі”. Якщо у вас не було клоунів з бензопилами на днях народження в дитинстві, вам пощастило! Але, загалом, завдання виконано. Діти на вечірці, клоун, бензопила. І приємний бонус – правильне написання “Happy Birthday” на фоні. Текст – це одна з сильних сторін цієї моделі. Ми ще побачимо вражаючі приклади цього.
Далі я вирішив випробувати модель складним prompt. Перевіряємо, як справи у нашої жінки в червоній сукні, колишньої дружини чоловіка в синьому діловому костюмі, яку востаннє бачили на побаченні з чоловіком у жовтій куртці. Що ж, вона повернулася додому і з тугою розглядає фотографії зі свого весілля. Це було цікаве композиційне завдання для моделі, оскільки я надав не лише деталі про саму фотографію, але й про її вираз обличчя. Вона зробила все можливе. Можна трактувати це як те, що вона читає щось написане на звороті фотографії. Якщо у вас є подібний кадр, ви завжди можете скористатися функцією remix і з prompt “Знімок через плече з фокусом на фотографії” отримати саме те, що потрібно. Наша жінка в червоній сукні (імовірно, та сама персонажка) на фоні, що відповідає попередньому. Це буде дуже корисно для візуального оповідання, принаймні коли справа стосується співвідношення сторін 16:9.
Переходимо до більш творчих prompt. Цей prompt я запозичив у Faux Fur деякий час тому. Ми використовували його в нашому тесті Emen 3. Prompt: “Підводна фотографія темноволосої жінки, трохи присіла, волосся підняте вгору, спальня 90-х, занурена у воду, джинси, чорний светр, сині стіни, плюшевий червоний килим, ноутбук 80-х і плетений білий столик”. Мушу визнати, результат вражає! Червоний килим, сині стіни, білий плетений столик. І телевізор, і ноутбук виглядають як IBM Thinkpad 97-го року. Хто їх ще пам’ятає?
Залишаючись у темі ностальгії за 90-ми, ось VHS-касета з моєю короткометражкою “Міст”. З бокс-артом все чудово. Сама касета трохи зіпсована, і я, ймовірно, прибрав би трохи спотворений текст на відеомагнітофоні, але я не запитував про це. І, можливо, це плеєр Sony VHS. Хоча, якщо ви запитуєте про текст, ця річ може злетіти!
Наш вигаданий роман за мотивами Allan Wake, написаний вигаданим автором Donham Mindy, з цитатою Стівена Кінга “Будь ласка, перестаньте питати мене про цю книгу, її не існує” – модель впоралася з усім, що я просив, і об’єднала все це в зображення, яке чітко показує, що вона знає, що таке Allan Wake.
Я хотів побачити, як далеко ми можемо зайти з текстом, тому я зайшов у Chad GPT і попросив його дати мені вступні абзаци вигаданої романізації гри Allan Wake. Він надав мені пару вступних абзаців. Взявши цей текст і використавши prompt “Фотографія сторінки з роману в м’якій обкладинці”, а потім просто скопіювавши текст, отримав… Ну, це вражає! Вона не лише підібрала “Chapter One: The Darkness in the Rearview” як назву розділу, але й правильно написала весь текст. Єдине, що я помітив, це дивний глюк з дефісом між “written” та “a”, а також пробіл між “Sun” та “set” у слові “Sunset”. Але це значна кількість тексту, згенерована моделлю AI.
На завершення – пара фінальних текстових тестів. Обкладинка гри PS5 для GTA 7, дія якої відбувається в Бренсоні, штат Міссурі. Якщо ви не знайомі з Бренсоном, штат Міссурі, то це місце, де злочинність помирає. Загалом, я думаю, що вона впоралася із завданням. Композиційно це виглядає як обкладинка GTA. Стилістично, можливо, не зовсім у тому ж стилі, але хто знає, чи не змінять вони художній стиль до часу виходу Grand Theft Auto 7. Брендинг повністю відповідає вимогам. Єдине, що я бачу, що трохи недбале, це “duck rides” внизу, що виходить як “ride ducks”, і навіть слово “ride” написано з помилкою.
А ось тут стає цікаво, тому що прив’язка зображень у цій моделі трохи схожа на функцію remix у Sora – надзвичайно потужна, але з певними обмеженнями. Важливо зазначити, що багато демонстраційних матеріалів, які ми бачили, були переосмисленнями фотографій у стилі аніме або студії Ghibli. Це тому, що вона спотворює обличчя з фотографічних посилань так само, як це робить Mid Journey. Взявши це зображення мене та використавши prompt “Фігурка мене”, ми можемо чітко побачити, що вона спотворила референтне фото мого обличчя, зробила мені стрижку, а також зробила так, що я став схожим на суміш мене та Джона Мілні. Це відбувається повсюди. Це дивне зображення персонажа Джона Віка, згенероване Mid Journey, а не актора Кіану Рівза. І, використовуючи його як референсне зображення, ми отримуємо ось це – версію Джона Віка, яку ви можете побачити на Tubi, і яка чомусь зветься Jor Wick.
На мене це не ображає, тому що модель демонструє реальну силу в створенні ілюстрованих і анімованих персонажів. Можна піти іншим шляхом. Ось персонаж, якого я згенерував у Mid Journey, і ось фон, який я згенерував у Mid Journey. Використовуючи обидва як референсні зображення, ми отримуємо це зображення, яке виглядає досить добре. Стилістично естетика нашого вихідного персонажа змінилася. Але річ у тім, що ми можемо повторно використовувати її з різними фонами, і стилістично вона залишатиметься досить послідовною з версією цієї моделі. Це дуже зручно. Можливо, вам знадобиться кілька повторів, щоб отримати все правильно, але це суть гри, коли йдеться про ШІ. І, до того ж, це безкоштовно!
Хоча я все ще тестую це, здається, є ще один рівень для послідовного персонажа в локації, хоча й у трохи іншому стилі. Якщо ви візьмете один зі своїх вихідних результатів, скажімо, це зображення, і знову remix його з іншим prompt – дією, але потім підкріпите його не лише вашою локацією, а й вашим оригінальним персонажем, то отримаєте ось що – стилістично інший результат, визнаю, але у мене є теорія, що за допомогою цього підсилення prompt-зображення ми, ймовірно, отримаємо щось, що залишатиметься досить послідовним принаймні в цій локації, і, можливо, отримаємо ще кілька знімків з цього. Я повідомлю вам про свої знахідки, а поки що перевіримо, як справи у нашої старої знайомої Даніель Ванон, одягненої як пірат. Ми давно її не бачили.
Початкові експерименти з надання їй фотографічного вигляду не мали великого успіху. Просто використайте prompt “Фотографія жінки-пірата, капітана, що стоїть на палубі свого корабля” і отримайте ще одне ілюстроване зображення. Розширюючи наш prompt за допомогою “Фотореалістичний крупний план портрета”, за яким слідує купа деталей, все одно закінчимо з ілюстрованим виглядом. Зрештою, щоб отримати фотографічний вигляд, вам потрібно буде використати один із пресетів. Я використовував archival, який здається фотографічним. Решта, як правило, трохи більш мультяшні. Але, зрештою, це спрацювало. Оскільки ми перебуваємо на платформі Sora, ви, мабуть, цікавитеся, як виглядає згенероване відео. Sora, звичайно, все ще займається справами Sora. Мені вдалося отримати ось це, яке я вважаю досить хорошим, незважаючи на змінене співвідношення сторін. Sora все ще дещо заплутана. Але зараз нею може користуватися кожен, і я чув чутки, що незабаром вийде суттєве оновлення Sora, тож тримаємо пальці схрещеними.
Я завжди відчуваю потребу сказати, що я надзвичайно критично ставлюся до Sora, лише тому, що я хочу, щоб вона була хорошою, і я знаю, що це можливо. Переходячи до оновлень від спільноти, резидент Mid Journey, Нік Сен-П’єр, генерує це зображення, яке, я думаю, ще раз демонструє, скільки тексту можна використовувати в цій моделі, і наскільки це смішно. Мені подобається “reindeer parking down here by permanent only in violators we plays on the naughty list”. Мої друзі з AI for humans, gav and Kev, дають us переосмислення Уми Турман у Pulp Fiction. Я думаю, що це зображення дійсно ілюструє той факт, що ви не отримуєте структурних посилань із цієї моделі. Якщо ви можете сказати орієнтацію голови Уми тут і куди спрямовані її очі, і аніме-версію цього, голова знаходиться в іншому положенні, дуже незначно, але очі, безумовно, спрямовані в іншому напрямку. Faux Fur дає мені одне з моїх улюблених поколінь, які я бачив, – створює обкладинку для телешоу Severance, щоб вона виглядала так, ніби вона з 1973 року і трохи зношена. Мені подобається все в цьому. В альтернативному виході цього prompt я знайшов дуже цікавим, що модель фактично дала автору Дена Еріксона, творця шоу Severance, а потім перерахувала акторів нижче. Це показує, що модель, безумовно, знає, що таке Severance і хто в ньому знімається.
На завершення цього відео, яке вийшло набагато довшим, ніж я хотів, я швидко хотів би підкреслити той факт, що Reev також dropped. Це модель, яка відрізняється реалізмом і креативністю. Нещодавно вона посіла перше місце в лідерах під назвою Half Moon, нещодавно розкрита як Reeve. Ви отримуєте 2 безкоштовні кредити на день, а ціни зараз найнижчі в просторі генерації зображень AI. Обов’язково перейдіть і перевірте їх. Отримайте свої 20 безкоштовних кредитів сьогодні і спробуйте ще раз завтра, подивіться, чи подобається вам це. І, поки я знімаю це відео, audiogram тільки що випустила version three. Безумовно, у списку багато чого є, але спочатку ми повинні розібратися з виробництвом “Мосту”, який знову вийде завтра. Сподіваюся побачити вас там. Дякую за перегляд. Мене звати Тім.