Перший кадр, останній кадр: Як Kling змінює правила відеогенерації
Уявіть, що ви можете створювати картини, які оживають. Не просто зображення, а історії, що розгортаються з плином часу, зберігаючи душу героїв, їхні характери та атмосферу. Минуле, коли штучний інтелект обмежувався нерухомими картинками, позаду. Сьогодні ми стоїмо на порозі нової ери, де AI стає інструментом для створення візуальних наративів. І хто стоїть на чолі цієї захоплюючої подорожі? Компанія Kling, що оновила свою модель 2.1 – додавши функцію “Перший кадр, останній кадр”. Я вже протестувала її, і, чесно кажучи, це найкраще, що ми бачили в цій галузі!
Минулого тижня мій друг-розробник, який завжди в курсі технологічних новинок, продемонстрував мені останній прорив Kling. Я, як це часто буває, чекала на щось, що “майже працює”, адже попередні спроби Kling у цьому напрямку (попередні ітерації “першого-останнього кадру”) залишали мене, м’яко кажучи, байдужою. Вони чудово справлялися з атмосферними, сюрреалістичними зображеннями, але, коли справа доходила до наративу та створення історії, результат був непередбачуваним. Але те, що Kling представила цього разу, вражає вдвічі. Я вже бачила, як ця функція “старить” Кіану Рівза на 20 років за 10 секунд, і як його персонаж змінюється. Тож, готуйтеся, бо ми заглибимося в глибини нових алгоритмів, розглянемо експерименти та роботи спільноти, щоб зрозуміти, де ця технологія найкраща, а де ще є над чим працювати.
І, звичайно, не обійдеться без наших улюблених “бананів”. Серйозно, про “перший-останній кадр” практично неможливо говорити, не згадавши про Nano Banana. Тому, так, ми розглянемо деякі цікаві знахідки від спільноти, можливо, навіть дізнаємося про дату релізу тієї самої неймовірної моделі, про яку зараз всі говорять. Тож, пристебніть паски, буде спекотно!
Коли AI вирішив омолодити Кіану Рівза (і що з цього вийшло)
Перший мій експеримент із новою функцією Kling був доволі амбітним. Я вирішила перевірити, чи зможе AI реалістично показати процес старіння. А хто краще за Кіану Рівза в цій ролі? Його обличчя знайоме мільйонам, і воно, як і всі ми, змінюється з плином часу. Kling запропонував мені два зображення: Кіану Рівз зараз, і… трохи старший Кіану.
Отриманий результат? З одного боку, це вражало. AI створив плавну трансформацію, показав, як час залишає свої сліди. Але… (і тут, як завжди, є “але”) На останньому кадрі сталося щось дивне. Наче AI не міг змиритися з думкою, що Кіану постарів лише на 20 років за 10 секунд. І результат був… трохи несподіваним. Так, це працює, але водночас і ні. Це як з борщем – інгредієнти правильні, а смак не зовсім той.
Цікавий факт: Попередні версії цієї функції Kling часто краще справлялися з абстракціями та атмосферними пейзажами. Але, коли справа доходила до людей та сюжету – це була лотерея. Тому новий результат з Кіану – це вже великий крок вперед, навіть попри його “трохи дивний” фінал.
Кіану в новій ролі: від нуарного детектива до дверного проходу
Після першого, скажімо так, “емоційного” досвіду з Кіану, я не здалася. Я взяла інше його відоме зображення – його роль Джона Константіна. Той самий погляд, той самий стиль, але тепер з конкретним завданням: пройти крізь двері і опинитися на кухні, яка виглядає як сцена з фільму жахів.
І, чорт забирай, це було набагато краще! Kling зрозумів завдання. Персонаж пройшов крізь двері, опинився в приміщенні, і все виглядало доволі органічно. Більше того – на останньому кадрі він скинув куртку, що виглядало природно, а не як жахливий “морфінг” чи спотворення, як це було раніше. Пам’ятаю, як раніше AI міг перетворити стильну чорну куртку на щось схоже на білу сорочку, або ще гірше – на павутиння з павуками! Зараз же це виглядає так, ніби модель справді розуміє, що відбувається. “Окей, мені спекотно, я скину це”. Це вже щось!
Зелена Ана де Армас у кіберпанк-саду: сюрреалізм, що захоплює
Мені подобається спостерігати, наскільки AI здатний поєднувати, здавалося б, непоєднувані речі. Наприклад, Ана де Армас у ролі Балерини. Це один стиль, одна естетика. А тепер уявіть її ж, але в ролі Джой з “Того, хто біжить по лезу”. Зовсім інший світ, інша атмосфера. І я захотіла побачити, чи зможе Kling з’єднати ці дві реальності без додаткових інструкцій, тобто, просто давши йому два зображення.
Результат мене вразив. Він був цілісним, хоч і трохи сюрреалістичним. Якби ви показали цю картинку комусь, хто не знав би про цей експеримент, він, ймовірно, подумав би, що це арт-проект або кадри з фільму, де все продумано до дрібниць. І це при тому, що між цими двома зображеннями Ана де Армас, по суті, не має нічого спільного, окрім самої актриси! Це ніби ви взяли фото вашої бабусі, яка плете вінок, і фото вашого дідуся, який їде на тракторі, і AI дивовижним чином зробив би з цього один плавний перехід, де вони разом спостерігають за сходом сонця.
Але Kling не був би Kling, якби не дав можливість додати інструкції. Я спробувала додати декілька слів, щоб отримати певний перехід, і… це спрацювало! Проте, про це трохи пізніше, бо спочатку потрібно розібратися, як саме AI дотримується наших вказівок.
“Той, хто біжить по лезу” навиворіт: коли інструкція веде до небес (і назад)
Я завжди захоплювалася класикою. А “Той, хто біжить по лезу” – це ж справжній шедевр. Тому я вирішила взяти культовий кадр з оригіналу, де камера плавно спускається з висоти хмарочосів до рівня вулиці, і поєднати його з іншим кадром, де Декард сидить у своїй квартирі, в магазині локшини. Моя інструкція для AI була простою: “Проведи камерою вниз”.
І Kling показав мені… приголомшливий результат! Ми бачимо повний спуск від горизонту міста до нижніх рівнів. Деталей – безліч. Так, я мушу визнати, що в середині переходу картинка стає трохи “м’якою”, втрачає чіткість, але загалом це неймовірно. Це ніби ви побачили, яким може бути ваш рідний Київ крізь призму такого світу.
І ось тут стає цікавіше. Я думаю, що коли master модель kling 2.1 (дорожча) стане доступною, ми побачимо ще більше вражаючих результатів. Адже налаштування інструкцій між кадрами – це те, що відкриває нові можливості.
“А що, якби я спробував без інструкцій?” – запитаєте ви. Ну, звісно, можна спробувати “на сирій” моді. Я взяла два зображення, стилізовані під китайські бойовики, з ефектом хроматичної аберації, що додає особливого “кіношного” вигляду. Без будь-яких інструкцій Kling просто створив плавний від’їзд камери, що швидко обертається навколо. Це стильно, динамічно, і мені подобається. Але якби я хотіла чогось конкретного, наприклад, ефектного дрону, що огинає об’єкт, то без інструкцій це було б складно.
Шлях до історії: чи зможе Kling розповісти нам казку?
Гаразд, усі ці чудові картинки – це чудово, але чи може Kling створити справжню історію? Я вирішила це перевірити, створивши невеликий музичний відеоролик, використовуючи кадри, які я раніше генерувала для відео про Nano Banana.
Минулого тижня мій друг-розробник сказав дещо, що змусило мене задуматися: “Чи може AI розповісти історію, яка б чіпляла за живе?” Я прийняла цю ідею як виклик.
На жаль, не без проблем. Одна з ключових сцен – де герой проходить через двері, а камера обертається – виявилася для AI надто складною. Модель просто не могла зрозуміти, як обійти перешкоду. Вона вперто повертала героя назад, ніби він не міг вийти з власного офісу. Знаєте, буває таке, коли ти сам робиш помилку, і AI просто “слідує за тобою”.
І ще одна річ, яка мене турбує – це послідовність між кадрами. Навіть якщо брати останній кадр з одного кліпу і робити його першим для наступного, виникає невелика “розмитість”, “залипання” між переходами. Це якби ви намагалися з’єдувати два шматки плівки, але стик не ідеальний. Це не недолік Kling, це загальна проблема, яку варто враховувати під час планування.
Голоси спільноти: Коли AI творить дива
Але не все так сумно! Спільнота зараз просто захоплюється дивовижними роботами, створеними за допомогою Kling.
- Angry Tom показав приголомшливий “suit-up” Залізної Людини. Серйозно, якщо VFX для Голлівуду колись відійдуть у минуле, то ось вам новий кандидат.
- Dreamcast створив щось на кшталт “Шаленого Макса” – неймовірно атмосферно! Цікаво, що він використовував Kling не тільки на основній платформі, а й через API. Це означає, що будь-який сервіс, який має доступ до API Kling, може використовувати цю функцію.
- Alex Patrahu показав захопливий таймлапс, де кожен кадр генерувався AI. Це справді демонструє потенціал цієї технології.
Час поговорити про банани!
І ось ми дійшли до найцікавішого – Nano Banana. Я не можу повірити, що вже третє відео я роблю про модель, яка досі працює під кодовою назвою! Так, технічно ми ще не знаємо, хто саме стоїть за цим, але… це, чорт забирай, Google!
Блогер AI Warper влучно зауважив: “Важко знайти мотивацію створювати щось нове, коли Nano Banana може все це зруйнувати за тиждень”. Це справді так. Nano Banana – неймовірно потужна модель.
Важливо! Зараз Nano Banana доступна лише на LM Arena. Є багато шахрайських сайтів, що намагаються продати доступ до неї, але, по суті, вони просто користуються тим, що LM Arena надає цей доступ безкоштовно. Тож, перш ніж щось купувати, перевіряйте посилання!
Щодо дати релізу та офіційної назви – точних підтверджень поки що немає. Але я відчуваю, що це станеться дуже скоро. Нещодавно один з розробників Google DeepMind, Патрік Лобер, написав у Twitter: “Всім гарного понеділка. Бажаю всім продуктивного тижня”. Гра слів “appealing” (привабливий/яблучний) – це очевидний натяк. Також видання Testing Catalog News, яке часто володіє інсайдерською інформацією про новини Google, прогнозує global release Banana на 3 вересня. Отже, незабаром всі ми зможемо “отримати свій банан”.
Nano Banana: майстерність у деталях та сталості
Що ж робить Nano Banana настільки особливою? Її здатність до відтворення виразів обличчя та підтримки сталості персонажа.
- Haleem Al-Rashi, друг мого каналу, протестував модель на виразах обличчя. Він взяв чотири різних зображення з виразами і, використовуючи референсного персонажа, зміг відтворити ті ж самі емоції. Це просто божевілля!
- Jared Lou продемонстрував, як Nano Banana може тримати одного й того ж персонажа в чотирьох різних локаціях, зберігаючи його цілісність. Я дійсно думаю, що Nano Banana – це цвях у труну проблем зі сталістю персонажів в AI-генерації.
Я теж не втрималася від експериментів. Взяла персонажа, згенерованого Midjourney, і попросила AI розташувати його в тій самій позі, що й персонажа на іншому фото. Результат? Неймовірно!
Midjourney та Meta: “Мід-бук Фейс-подорож”?
А тепер про новини, які облетіли весь світ AI-спільноти: партнерство між Midjourney та Meta. Цим поділився Олександр Ванг, головний AI-офіцер Meta.
Це не просто “купівля” технології, а саме партнерство. Meta хоче ліцензувати естетичну технологію Midjourney для своїх майбутніх продуктів. Звучить амбітно, особливо з фразою “принести красу мільярдам”.
Важливо розуміти, що Midjourney залишається незалежною спільнотою-бекдорною лабораторією. Вони не мають інвесторів, працюють над купою проектів. Це, мабуть, розумний крок. Meta, відверто кажучи, поки що не надто вражає своїми досягненнями у відео- та зображувальній генерації. А Midjourney завжди має амбіційні плани, але часто потребує ресурсів для їх реалізації. Це не критика, просто факт – команда Midjourney невелика порівняно з гігантами на кшталт Meta чи Google.
Тож, чи побачимо ми незабаром брендинг Meta на сайті Midjourney? Я сумніваюся. Але це партнерство може стати справжнім поштовхом для обох сторін.
Що ви думаєте про цю співпрацю? Чи стане це “Meta Journey”? Напишіть мені в коментарях!
Підсумки та що далі?
Цей тиждень може стати знаковим, якщо чутки про Nano Banana виявляться правдою. Але незалежно від цього, Kling продовжує дивувати нас своїми інноваціями. Функція “Перший кадр, останній кадр” – це не просто чергове оновлення, це крок до створення повноцінних історій за допомогою AI.
Підсумовуючи все вищесказане: Kling доводить, що генерація відео – це не тільки про спецефекти, а й про створення зв’язних, осмислених наративів. Хоч і є ще певні недоліки, але прогрес вражає. Nano Banana готова підірвати ринок своєю сталістю та потужністю, а партнерство Midjourney з Meta обіцяє нові горизонти візуальної творчості.
Що ж нам робити далі?
- Експериментуйте! Спробуйте Kling 2.1, якщо маєте змогу. Грайтеся з інструкціями, комбінуйте різні стилі.
- Слідкуйте за Nano Banana! Переконайтеся, що у вас є доступ до неї безкоштовно через LM Arena.
- Діліться своїми творіннями! Спільнота – це те, що рухає прогрес. Покажіть світові, що ви можете створити.
Неймовірно, куди нас заведе штучний інтелект. Але одне я знаю точно: це буде фантастична подорож. До зустрічі у наступному відео!