Нова ера AI-графіки: Штучний інтелект, що малює дива (і не тільки!)
Привіт, друзі! З вами Ліла Харт, і я рада поділитися з вами останніми новинами світу штучного інтелекту. Нещодавно я повернулася з короткої, але необхідної відпустки і одразу занурилася у вир нових технологій. Світ AI не стоїть на місці – він шалено мчить вперед! Сьогодні я підготувала для вас огляд двох нових AI-редакторів зображень, які можна спробувати абсолютно безкоштовно. Один з інструментів настільки вражаючий, що я досі намагаюся усвідомити побачене. Крім того, ви дізнаєтесь про свіжі оновлення Kling, новий інструмент від 11 Labs для перетворення відео в аудіо та трохи інсайдерської інформації про організацію кіновиробництва за допомогою AI.
Готуйте свої горнятка з кавою чи чаєм – ми вирушаємо у захопливий світ AI. Якщо ви вважаєте, що генерація зображень – вже вершина можливостей AI, то приготуйтеся побачити, як ці інструменти стають ще потужнішими, точнішими і, головне, доступнішими. Поїхали!
Розділ 1: Здивування від Alibaba – Qwen ImageEdit
Ви, напевно, пам’ятаєте, як я захоплювалася інструментами для редагування зображень, особливо тими, що дозволяють змінювати щось у вже згенерованому кадрі. Донедавна, на мою думку, в цьому лідирував Context від Black Forest Labs, хоча багато хто віддає перевагу моделі від GPT. Я, зізнаюся, не фанат “розмитого” ефекту та загальної жовтизни, яка ніби вбудована в зображення від GPT. Тому поява нових варіантів – завжди чудова новина!
Знайомтеся: Qwen ImageEdit від Alibaba. Це модель з відкритим кодом, а це означає, що ви можете запустити її локально або знайти безліч платформ, які вже починають її інтегрувати. Найпростіший спосіб спробувати – перейти на Qwen Chat. Навіть не потрібно реєструватися! Просто натискаєте кнопку “image edit”, завантажуєте зображення та описуєте, що саме хочете змінити.
Я вирішила провести тест-драйв, використавши зображення, згенероване моєю улюбленицею – Crea 1. Мій запит звучав так: “Зміни пістолет на банан”. Чому на банан? Ну, тому що пізніше ми ще повернемося до бананів .
Результат мене приємно здивував! Пістолет перетворився на банан. Можливо, він не ідеально вписується в органічний відділ супермаркету – виглядає трохи “ГМО”, але загалом – досить солідно! Головне питання при тестуванні таких інструментів – чи зберігається все інше на зображенні? Qwen впорався чудово: він змінив лише те, що просили, і залишив решту деталей недоторканими.
Порівняймо з GPT. З одного боку, GPT, можливо, створив більш реалістичний банан-пістолет. Але, як я вже казала, з’явився той самий зсув колірної температури, легка “жовтизна” і текстури шкіри стали надмірно м’якими. До речі, GPT досі працює з обмеженнями щодо розміру зображень: хоча ми вже маємо 2K, він все ще залишається у 1080p. Ну ж бо, GPT, розвивайся!
Що насправді круто в Qwen ImageEdit? Він добре справляється з низькорівневим семантичним візуальним редагуванням. Простіше кажучи, з дрібними деталями. Наприклад, я попросила видалити волосину з тарілки (так, я б ніколи не пішла в той ресторан ), і Qwen зробив це бездоганно.
Він також здатний до високорівневого редагування: повертати персонажі або об’єкти, зберігаючи при цьому їхній стиль! Ось, наприклад, зображення, яке виглядає так, ніби повернулося до життя в стилі Studio Ghibli. Круто, правда?
Ще одна фішка, яку вони особливо виділяють – це редагування тексту. Причому воно двомовне і дуже точне. Я, звісно, не знаю китайської, але якщо хтось зможе перевірити, чи справді там написано “страхування здоров’я”, буду дуже вдячна!
Загалом, Qwen ImageEdit – перспективна модель, особливо коли йдеться про роботу з текстом. Хоча, зізнаюся, коли я попросила прибрати Бетмена з темної вулиці (ну, Бетмен завжди гуляє темними вулицями, це класика!), результат був не дуже. Він зрозумів, хто такий Бетмен, але вийшло “мальоване” зображення, схоже на те, що іноді робить GPT. Але я бачила, як інші користувачі – наприклад, Shredar – використовують його для перетворення цілих міських пейзажів на версію з LEGO, і це виглядає неймовірно! Навіть написи на дорожніх знаках збереглися!
Цікаво знати: Qwen ImageEdit доступний для безкоштовного тестування на Qwen Chat. Ви можете зробити близько п’яти редагувань, навіть не авторизуючись. Якщо хочете рухатися далі, можете завантажити його локально, знайти на HuggingFace, Replicate та інших платформах.
Розділ 2: Таємничий банан – Nano Banana: Революція в компонуванні?
А тепер те, що справді змусило мене підскочити від захоплення! Кілька днів тому в лідербордах з’явився новий, загадковий AI-редактор зображень – Nano Banana. Ходять чутки, що за ним стоїть сам Google, але це поки що не підтверджено. Поки ми чекаємо, хто ж саме “чистить” цей банан, у мене є місце, де ви можете спробувати його абсолютно безкоштовно!
І я вам скажу, це, мабуть, найкраща модель для редагування на основі референсів, яку я бачила! Мій друг Халєм Аль-Раши вже встиг протестувати її, використавши чотири різні референси: локацію, машину, персонажа та одяг. Результат? Просто космос!
Як спробувати Nano Banana? Найкращий спосіб зараз – це сторінка LM Arena battle page. Там ви берете будь-яке зображення, наприклад, наших закоханих, які нещодавно дізналися, що живуть у симуляції (так-так, такі от вони, сучасні пригоди!), перетягуєте його, задаєте запит, наприклад, “прибери чоловіка з зображення”, і чекаєте.
Тут немає вибору моделі – це режим “битви”, де система пропонує два варіанти, а ви обираєте, який кращий. Так ви допомагаєте розвиватися моделям і, власне, довідуєтеся, яка саме працювала. У моєму випадку, звичайно, це Nano Banana.
Справжня “магія” Nano Banana – його здатність генерувати додаткові кадри в межах сцени. Уявіть: у вас є один кадр, а ви можете згенерувати різні ракурси та наближення. Я взяла трискладовий кадр і попросила зробити його у стилі кіберпанк-дистопії (бо якраз переглядала “Alien Earth”, знаєте, настрій ). Ось результат: кінематографічний крупний план чоловіка, наближення на жінку і ще один крупний план чоловіка з іншого боку. Порівняйте: Nano Banana проти Flux Context Dev, Nano Banana проти GPT Image 1, Nano Banana проти Qwen ImageEdit. Nano Banana виявився на голову вищим! З цих трьох кадрів вже можна зібрати невеличкий міні-фільм. Я спробувала зробити це в CapCut Pro, і виглядає доволі переконливо!
А як щодо реальної фотографії? Я взяла кадр зі зйомок “2001: Космічна Одіссея”, де Стенлі Кубрік знімає фінальний, гіпнотичний момент. Попросила прибрати все, окрім Дейва Боумена – астронавта. Майже ідеально! Тільки один “зайвий” чоловічок залишився з другого перезапуску і його не стало. Але тумбочку, на якій він сидів, я також втратила. Дрібниці, але варто звернути увагу.
Ще один момент: коли я робила повторну генерацію, поза астронавта трохи змінилася. Не знаю чому. Можливо, це пов’язано з тим, що коли я прибирала “зайвого” чоловічка, система “з’їхала” на тумбочці, але поза астронавта залишилася тією ж. Цікаво, треба додатково дослідити.
Останнє – фільтрація облич (face scrambling) та стильова консистентність. Я завантажила своє фото і попросила зробити кінематографічну сцену в казино, ніби я таємний агент. Результат? Майже моє обличчя, хоча, на мою думку, я виглядала там трохи самовпевнено. І ще ця леді дивиться на мою картку! Шахрайка!
Щодо стилю – взяла зображення у стилі Midjourney і попросила чоловіка в жовтому піджаку повернутися. Він повернувся, і, найголовніше, стиль залишився таким самим! Це просто неймовірно.
Що ж таке Nano Banana? Ми досі не знаємо напевно. Якщо це дійсно Google, можливо, ми побачимо його як частину Gemini 3, IMGen 4 чи V3. А вже завтра Google проводить свою подію “Made by Google”, хоча там більше про телефони Pixel. Оскільки Nano Banana – “нано”-модель, цілком можливо, що вона буде оптимізована для мобільних пристроїв. В будь-якому разі, я триматиму вас в курсі!
Розділ 3: Notion AI – ваш менеджер кінопроекту?
Перш ніж перейти до Kling, поділюся тим, що, на мою думку, може кардинально змінити підхід до створення контенту, особливо якщо ви працюєте з AI. Це Notion AI. Для тих, хто не встиг захопитися цим дивом, або навпаки, є частиною “культу Notion”, буде особливо цікаво, особливо, якщо ви плануєте створення AI-фільмів.
Проблема кіновиробництва за допомогою AI, як на мене, – це організація. Більшість з нас працює самостійно або в невеликих командах. Робочі процеси постійно перетинаються, а виробничі конвеєри дають течі. Тож мене зацікавило: чи можна використовувати Notion як гібридний креативний та продакшн-офіс?
Я почала з “зустрічі з собою”. Загальна ідея – створити трейлер до AI-фільму, щось на кшталт “Брудної дюжини” зустрічає епік-фентезі. Більша частина цієї “зустрічі” стосувалася саме “як” – тобто виробничого конвеєру. Після зустрічі Notion AI підсумував: концепцію проекту, конвеєр, інструменти, організацію і навіть надав список дій.
На креативному боці я могла детально описати кожного персонажа, створити для них індивідуальні сторінки та базові Midjourney-промпти. Ці сторінки стали ідеальним місцем для збереження тестових відео. Що найкрутіше – Notion тепер не тільки зберігає та організовує креативну інформацію, а й генерує її!
Наприклад, я робила опис світу “Вік розлому” – похмурий, темний, фентезійний. Задала Notion питання: “Створи мені місто”. І отримала – Залізні Міста Сухому Холоду. Звучить потужно, так? Зображення я згенерувала через Midjourney, але Notion надав мені стилізований промпт.
Тут криється вся сила: Notion має базу знань всього, що ви в нього кладете. Маємо опис міста, а якщо повернемося до сторінки лицаря, то побачимо вкладку “Notion AI nosy”. Там я попросила створити передісторію, чому лицар більше не бажаний у Сухому Холоді. І отримала чудовий варіант про його вигнання. Цікаво, що AI навіть посилівся до головної сторінки про лицаря, створивши між ними зв’язок! Це і є організація!
Креатив – ваша справа, але саме список завдань для перетворення задуму на реальний фільм є тим, на що варто покластися AI. Повернувшись до тієї першої “зустрічі”, я попросила Notion створити детальний список завдань: передпродакшн, продакшн, постпродакшн, організаційні моменти. Потім я попросила перетворити все це на візуальну дошку завдань. Результат чудовий! Там є все, що потрібно для створення AI-фільму.
Я навіть попросила додати дати та час, створивши календарний план виробництва (приблизно тиждень, по 8 годин на день). Я, ймовірно, працюю понаднормово, але це моя давня звичка . Я прихильник того, що Notion додав до списку “Святкування команди” в останній день. Дякую, Notion! Ти запрошений на вечірку!
Це нестандартне використання Notion, але сам факт того, що з головної сторінки ви маєте доступ до всіх “чат-ботів”, дозволяє вам створювати все, що забажаєте, і налаштовувати все під себе.
Хочете спробувати Notion? Посилання – в описі. Є безкоштовний тариф, де ви можете спробувати Notion AI. Потім він переходить на бізнес-план. Немає жодних додаткових плат за використання інших AI-моделей.
Розділ 4: Kling – перший і останній кадр: Майбутнє вже тут
А зараз швидко перевіримо, що там новенького у Kling. Вони випустили довгоочікувану функцію first frame, last frame для Kling 2.1. Це може і не найреволюційніша фішка, але враховуючи все, що було з редакторами зображень, ця функція може стати корисною.
На жаль, у мене ще немає доступу до неї, але мій друг Сеу вже встиг протестувати. Виглядає дуже круто! Мене вразили кадри з дією, що повертає до теми потужності можливостей першого та останнього кадру, коли ця функція стане доступною для всіх.
Я чула, що це може статися вже цього тижня, тож будьте напоготові!
Розділ 5: Eleven Labs – музика для ваших відео: Звучить цікаво!
І на завершення, ще одна новина від Eleven Labs, які випустили нову функцію – video to music. Звучить інтригуюче.
Ви натискаєте кнопку “video to music”, завантажуєте відео (я використала те саме, що й раніше, з чоловіком і жінкою), і все. Воно працює швидко, і вже має опис побаченого системою. А потім генерує музику.
Зачекайте хвилинку… Готово! Досить швидко, чи не так? Чи можна назвати це творінням на рівні Ханса Ціммера? Мабуть, ні. Але це пристойний музичний фон для сцени. Головне, що музика відповідає жанру, а не почала грати циркова мелодія. Це було б дивно, до речі.
Я обов’язково пограюся з цим інструментом, коли буде час. Мені дуже цікаво, як він впорається з динамічними “бойовими” сценами.
А поки що – вітання Eleven Labs з цією новинкою! Вони випускають багато цікавого. Так тримати!
Висновок: Повертаємось до роботи з новими інструментами!
Отже, друзі, це все на сьогодні. Як добре повернутися до роботи! Дякую всім, хто підтримував мій блог, поки я була далеко. Ми знову в строю, з новими ідеями та інструментами, які точно змінять наше уявлення про AI.
Ми побачили можливості Qwen ImageEdit від Alibaba, занурилися в таємниці Nano Banana, що, ймовірно, є дивом від Google, і навіть зазирнули у майбутнє кіновиробництва з Notion AI. Ще дізналися про оновлення від Kling та нову функцію video to music від Eleven Labs.
Що далі? Діяти! Спробуйте ці інструменти самі. Експериментуйте, комбінуйте, створюйте. Саме через власний досвід ми найкраще розуміємо можливості штучного інтелекту. Пам’ятайте, що кожен ваш крок у дослідженні цих технологій – це внесок у створення чогось нового.
Підсумовуючи, бачимо, як AI-інструменти стають все більш доступними, потужними та спеціалізованими. Від точного редагування зображень до генерації музики та організації складних проектів – можливості здаються безмежними.
У підсумку, це не просто інструменти, а справжні партнери у творчості. Не бійтеся їх спробувати! Ми стоїмо на порозі нової ери, де межі між реальністю та цифровим світом стираються, а головним інструментом стає ваша уява, підсилена штучним інтелектом.
Не гайте часу! Завантажуйте, тестуйте, створюйте! Я з нетерпінням чекатиму на ваші відгуки та, звичайно ж, на нові відкриття. До наступної зустрічі!