Чи зможе ШІ наспівати собі слави? Історія експерименту, що змусив полюбити… блок-схеми.
Коли відкриваєш стрічку соцмереж, бачиш справжній парад дивовиж. Особливо останнім часом. Ніби з науково-популярного журналу для школярів, але з трендовими бітами, що застрягають у голові на цілий день. Я не про відео, де діти співають про абетку, хоча асоціація цілком слушна. Я про феномен перетворення складних наукових термінів на… хіти. Особливої популярності набув один TikTok-акаунт, де хлопці так круто роблять освітні пісні, що здається, вони ось-ось отримають “Ґреммі” за внесок у популяризацію фізики.
Раніше я якось не замислювався, як працює кондиціонер. Навіщо? Він працює і добре. Але, як-то кажуть, чорт забирай, я випадково завис на відео, яке пояснювало принцип його дії, і… провів там аж три хвилини. Відчував себе на концерті, а не на уроці природознавства. А це, друзі, той випадок, коли техніка стає… майже магічною.
І тут мене осінило. А що, як спробувати зварити такий “хіт” самому? Звісно, не заради слави чи мільйонів переглядів (хоча, хто знає… ). Скоріше, щоб розібратися: як це робиться? Чи можна повністю перекласти цей процес на плечі штучного інтелекту? І найголовніше – чи вийде з цього щось путнє, чи тільки “каша” замість гармонійного твору?
Тож, готуйте каву (або чай!), бо зараз ми вирушимо у подорож світом AI-музики, візуалу та… справжніх технічних викликів. Це буде невеликий експеримент, який, сподіваюся, допоможе зрозуміти межу між геніальністю машини та… ну, ви зрозуміли.
Частина 1: На старт, увага… дослідження!
Перш ніж створювати шедевр, потрібна хоча б якась ідея, про що співатимемо. Я вирішив обрати тему, що стосується кожного водія – двигун внутрішнього згоряння. Звучить страшно? Аж ніяк! Я попросив ChatGPT розкласти все по поличках, але з однією умовою: без зайвих метафор. Знаєте, чому? Бо коли просиш його написати вірш, він починає так закручувати, що замість простого пояснення про поршні отримуєш поему про душу двигуна.
Мій запит звучав просто: “Поясни, як працює автомобільний двигун. Зроби це просто, але детально, щоб зрозумів будь-хто. Напиши це у формі вірша. І, будь ласка, без метафор.“
І знаєте що? Він впорався! Ось уривок:
“Повітря входить через впускний клапан,
Паливо впорскується в циліндр.
Поршень рухається вниз,
Ми втягуємо суміш.
Впускний клапан закривається.
Поршень піднімається, стискуючи повітря й паливо щільно…“
Погодьтеся, звучить вже не так страшно, як могло б бути. Цю інформацію можна брати за основу. Це наш “технічний рецепт” майбутньої пісні.
Частина 2: Ідеальна мелодія – це вам не жарти!
Далі – музика. Є інструмент, який вражає здатністю створювати “чіпляючі” мелодії. Це Suno [Повернутися до тексту]. Так, я знаю, що багато вірусних відео створюються саме за його допомогою. І хоча у нього немає API (це така штука, яка дозволяє програмам спілкуватися між собою автоматично), він генерує музику, яка мені дуже подобається.
Я завантажив наш “вірш” про двигун як текст, погрався з налаштуваннями – як кухар вибирає спеції – і натиснув “Створити”.
Перший варіант був… не зовсім те. Другий – ще гірший. Третій… о, четвертий вже був ближче! Я знайшов потрібний ритм, голос, темп. Пісня звучала класно, і слова були добре розбірливі. Звучить так:
[Тут має бути аудіо-фрагмент пісні про двигун. Уявіть собі щось веселе, але чітке, з прикольним жіночим вокалом.]
Це було вже щось! І тут я згадав про одну хитрість. Щоб наступні пісні звучали в тому ж ключі, я створив “персону” в Suno – назвав її “TikTok Education Songs”. Тепер, коли створюватиму нові освітні пісні, обиратиму цю персону, і вони звучатимуть як від одного виконавця. Це “музичні відбитки пальців”, щоб зберегти стиль.
Частина 3: Візуальна сторона питання – де ж ця “смачненька” картинка?
Підходимо до, мабуть, найскладнішого етапу. Створити музику – добре, але знайти відповідний візуал, який би доповнював пісню і робив її зрозумілою… це справжній виклик. Особливо, коли хочеш, щоб все було автоматизовано.
Я спробував кілька підходів. Спершу – Nvidia. Вони пропонують генерацію стокових відео. Я обрав платформу – ТікТок, тип медіа – стокове відео, довжина – 90 секунд. Ну, що сказати… Результат був… цікавий.
[Опис або скріншот з Nvidia-відео. Наприклад: “Відео показувало дивні шестерні, які навіть не крутилися, або зображення, що взагалі не мали стосунку до двигуна. Наприклад, коли пісня говорила про старт роботи двигуна. На екрані з’являвся… плавець, що плаває! Чому? Навіщо? Незрозуміло.”]
Це було як… якби ви запитали тітку Галю про рецепт борщу, а вона б почала розповідати про вирощування капусти в Сибіру.
Потім я звернувся до Sora 2 [Повернутися до тексту], яка вважається одним з найкращих генераторів відео. Я вставив кілька рядків з тексту і попросив створити візуал. Результат був трохи кращий, але все ще далекий від ідеалу.
[Опис/скріншот з Sora 2-відео. Наприклад: “Одна з версій показувала щось схоже на поршень, але деталі явно не збігалися. Наприклад, клапан не закривався правильно, або в циліндрі з’являлася якась зайва рідина. Це як коли майстер виготовляє стілець, але забуває прикрутити одну ніжку – виглядає, але не стоїть.”]
Я вже почав відчувати розчарування. Далі була спроба з Leonardo AI [Повернутися до тексту], щоб анімувати знайдені зображення. Але й тут – нічого путнього. Відео почало “жити” само по собі, поршні рухалися хаотично, а все виглядало… дивно. Це як коли намагаєшся зробити фотосесію, а модель раптом починає танцювати брейк-данс.
Частина 4: На порятунок – стокові відео!
Я зрозумів, що з повністю згенерованими відео поки вийде “каша”. Тоді вирішив піти шляхом, який, як виявилося, використовують багато популярних каналів: стокове відео. Так, це готові нарізки, які можна знайти в інтернеті.
Є чудовий інструмент – Opus Clip [Повернутися до тексту]. Він може аналізувати відео (навіть таке, де багато чорних прогалин, як у моєму тестовому варіанті) і пропонувати підходящі стокові кадри. Я завантажив свій, де були тільки чорні екрани, і попросив його знайти мені візуал.
І тут почалося найцікавіше:
- AI B-roll: Цей варіант запропонував відео, де на слова про клапан показували… токарний верстат! А коли мова йшла про підйом поршня, на екрані з’явилася людина, що плаває. Ну, “свідомо” стискає повітря, мабуть. Чому саме так? Я не знаю. Це якби ви замовили бутерброд, а вам принесли шматок пирога.
- Generated B-roll: Згенерований варіант був трохи кращий. Він показував деталі двигуна, але вони теж не завжди відповідали тому, що говорилось. Це було трохи схоже на те, якби шкільна бібліотекарка намагалася пояснити вам, як працює двигун, використовуючи для прикладу… розклад руху потягів.
Частина 5: Спроба автоматизації – чи зможе AI “зробити все”?
Я почав сумніватися, чи вдасться мені повністю автоматизувати цей процес. Здавалося, AI ще не готовий генерувати ідеальні візуали для пояснювальних відео. Можливо, він добре справляється зі створенням “сирих” матеріалів, які потім потрібно допрацьовувати вручну.
І тут я згадав про інструмент Glyph [Повернутися до тексту]. Це платформа, яка дозволяє створювати AI-агентів – автоматизовані програми, що виконують задані інструкції. Я побудував свого агента, який мав пройти через усі етапи: від дослідження теми до створення відео.
І що ви думаєте? Він зробив! Здійснив генерацію музики (хоча й не таку вдалу, як Suno), додав субтитри, навіть наклав музику на зображення. Результат був… не надто вражаючим. Відео тривало лише 10 секунд, а картинки були, м’яко кажучи, дивні. Це було схоже на дитячий малюнок, де всі деталі перемішані.
Я спробував ще один інструмент – Mind Studio [Повернутися до тексту]. Він дозволяє будувати складніші робочі процеси. Цього разу я почав з генерації пісні, потім – тексту до мовлення, і, нарешті, – відео.
[Опис кінцевого результату з Mind Studio. Наприклад: “Вийшло 30-секундне відео. Пісня була… ну, була. Візуали були, але знову ж таки – далекі від того, що я хотів. Це був виклик – змусити AI створити картинки, які б дійсно відповідали науковій темі, а не виглядали, як абстрактний арт. Це як коли ти просиш намалювати кота, а тобі приносять… фіолетового слона.” ]
Частина 6: Реалії сучасного AI – де сходяться людське око та машина
Отже, до чого ми дійшли? Чи може AI створити готове, вірусне, освітнє відео “під ключ”? Чесно кажучи, поки що – ні.
З одного боку, ми можемо мати класну пісню (дякую, Suno!), субтитри, навіть основу для відео. Це вже величезний крок вперед! Але, коли справа доходить до візуалізації, особливо для таких специфічних тем, як робота двигуна, тут AI поки що “кульгає”.
Є два шляхи:
- Людський фактор: Використовувати AI для генерації пісні та, можливо, деяких базових відеофрагментів, а потім брати найкращі стокові відео (з тих, що є в інтернеті, або спеціальних платформах) і вручну монтувати все разом. Це займає час, але результат буде якісним.
- Повна автоматизація, але… компромісна: Отримати повністю згенероване відео, але бути готовим до того, що візуали не будуть ідеальними. Вони можуть бути дивними, неточними, але це працюватиме. Це якби ви замовили в AI портрет, а він намалював би вам… щось абстрактне, але зі схожими рисами.
Зараз, коли хочеш отримати якісний освітній контент, де візуал і звук ідеально доповнюють один одного, повністю покладатися на AI – ще зарано. Але це не означає, що не варто пробувати!
Висновок: Шлях до майбутнього – ще не в повній автоматизації, але дуже близько!
Я не отримав мільйони переглядів за один день, і мої пісні про двигун не стали хітами (принаймні, поки що ). Але цей експеримент дав мені купу нових знань! Я зрозумів, як працюють деякі круті AI-інструменти, як їх комбінувати, і де їхні сильні сторони, а де – потенційні проблеми.
Glyph та Mind Studio – це справді потужні речі для створення автоматизованих робочих процесів. Вони показали мені, як багато кроків у створенні відео можна оптимізувати. Хоча кінцевий результат ще потребує людського догляду, це вже величезний прогрес.
Що далі?
- Продовжуйте експериментувати! AI розвивається блискавично. Те, що неможливо сьогодні, може стати реальністю за півроку.
- Не бійтеся комбінувати інструменти. Найкращі результати часто виходять, коли поєднуєш сильні сторони різних AI.
- Зосередьтеся на своїй “історії”. Навіть з неідеальними візуалами, чітка, зрозуміла розповідь з гарною музикою може бути дуже ефективною.
Можливо, ви теж можете створити щось цікаве за допомогою AI. І не обов’язково це мають бути освітні пісні. Це можуть бути відеоролики для вашого бізнесу, смішні меми, чи щось зовсім інше. Головне – почніть!
Я радий, що ви провели зі мною цей час. Сподіваюся, ви дізналися щось нове і, можливо, надихнулися на власні експерименти. Пишіть у коментарях, які AI-інструменти вас вражають, і чи пробували ви вже створювати щось подібне!
Підсумовуючи, хоча повна автоматизація створення вірусного освітнього контенту за допомогою AI ще не досягнута, ми вже маємо чудові інструменти для генерації музики, тексту і навіть базових відео. Ключ до успіху – це розуміння можливостей AI, вміння комбінувати різні системи та, звісно ж, трохи людського таланту для фінального штриха. Інтернет ще не затоплений повністю AI-згенерованими хітами про науку, але цей день, я думаю, не за горами!
Дякую, що були зі мною! Будемо на зв’язку!







