Octave від Hume: Новий рівень емоційного AI голосу, доступний кожному
Привіт, гіки та розробники! Casey Byte з вами, щоб поділитися крутою новинкою зі світу AI голосу та тексту в мову. Якщо ви, як і я, вважаєте, що більшість AI голосів звучать трохи… пласко, у мене для вас чудові новини. Знайомтеся з Octave від Hume – моделлю, яка обіцяє вирішити саме цю проблему. І найголовніше – вона має щедрий безкоштовний план та доступні ціни. Давайте зануримось у деталі!
Що таке Octave і чому він такий особливий?
Компанія Hume, яка раніше працювала здебільшого в розробницькій сфері, зробила крок назустріч creators-friendly інструментам, представивши Octave – Omniapable Text and Voice Engine. Ця нова модель поєднує лінгвістичну точність з емоційним розумінням. За словами розробників, Octave – це щось на кшталт шлюбу між LLM (великою мовною моделлю) та diffusion model.
Ключова відмінність Octave полягає в тому, що він не просто зачитує текст, а й розуміє контекст слів. Це дозволяє моделі передавати емоції та нюанси в голосі, роблячи його більш живим та реалістичним.
Простий приклад:
Уявіть, що ви даєте Octave текст сумної історії. Замість простого зачитування, модель спробує передати сум, розчарування або інші емоції, властиві цій історії.
Як це звучить?
Звичайно, краще один раз почути, ніж сто разів прочитати. Автор відео продемонстрував невеликий приклад використання Octave для озвучення короткої сцени. Хоча ліп-синк (синхронізація губ) ще не ідеальний, емоційність голосів персонажів вражає.
Знайомство з платформою Hume
Перейшовши на сайт Hume, ви можете одразу спробувати Octave у дії. На головній сторінці є поле для введення тексту та вибору голосу. Також є кнопка “Randomize”, яка генерує випадковий текст та голос.
Огляд інтерфейсу:
- Voice prompt: Виберіть голос, який вам подобається.
- Script prompt: Введіть текст, який потрібно озвучити.
- Randomize: Згенеруйте випадковий текст та голос.
- Speech to speech: Почніть розмову в реальному часі з однією з моделей (Claude, Hume, Llama, GPT4, Gemini 1.5 Flash).
Приклад використання Speech to speech:
Автор відео спробував поспілкуватись з моделлю Cara, використовуючи GPT4. Цікаво, що в діалозі моделі визначають емоції мовця, такі як “interest”, “confusion” або “nostalgia”.
Playground: Творчий простір для експериментів
Основна частина роботи з Octave відбувається в “Playground”. Тут ви можете вибрати один з попередньо встановлених голосів або створити власний.
Кілька цікавих попередніх голосів:
- Wise wizard: Мудрий чарівник з ельфійських легенд.
- Dungeon master: Голос ведучого Dungeons & Dragons.
- Nature documentary guy: Голос, знайомий нам з документальних фільмів National Geographic.
Створення власного голосу:
Найцікавіше – це можливість створити власний унікальний голос. Просто введіть опис бажаного голосу в поле “Voice design”, і Octave згенерує його для вас.
Приклад:
Автор відео спробував створити “trailer guy voice” (голос, який зазвичай використовують в трейлерах фільмів). Результат:
In a world consumed by shadows, one voice will rise above the darkness. But can it save us all?
Збережіть голос, і він буде доступний у вашій бібліотеці.
Більше експериментів: Poe, Slang та акценти
Автор відео вирішив піти далі та спробувати Octave з різними завданнями.
Edgar Allan Poe – “The Raven”:
Ввівши уривок з поеми “The Raven”, автор отримав “rich intense voice like a Gothic literature professor”. Дуже влучно!
Зміна завдання:
Помінявши опис голосу на “the speaker has the voice of a bored high school student giving a report”, результат також вийшов напрочуд вдалим.
Charming cowgirl: Інструкції з акторської майстерності та поліпшення тексту
Вибравши голос “charming cowgirl”, автор вирішив надати моделі текст: “I think I just saw a mime lurking around the corner and now I’m feeling pretty uneasy about it”.
Дії:
- Acting instructions: Платформа може автоматично згенерувати інструкції для акторської гри на основі тексту.
- Enhanced text: Octave може переписати текст, щоб він краще відповідав характеру голосу.
Результат:
Well I just reckon I saw mine slinking around the corner and now I’m feeling right uneasy about it.
Проекти: Створення аудіокниг та подкастів
Octave також пропонує функцію “Projects”, яка дозволяє створювати довші аудіоматеріали, такі як аудіокниги або подкасти.
Приклад:
Автор відео створив уривок з вигаданої аудіокниги “Alan Wake” (так, це та сама історія про випадково згенеровану картинку з авторшою Dona Mindy). Цікавою є можливість перемикати голоси для різних персонажів.
Ціни: Доступність для кожного
І наостанок, найцікавіше – скільки це коштує?
- Free plan: 10,000 символів тексту в мову (приблизно 10 хвилин) та необмежена кількість створених користувачем голосів.
- Starter plan: 3 долари на місяць.
- Інші плани: Від 10 до 900 доларів на місяць, залежно від потреб.
Більшості користувачів буде достатньо безкоштовного або “Creator” плану (10 доларів на місяць).
Висновок:
Octave від Hume – це перспективний інструмент для створення емоційного та реалістичного AI голосу. Завдяки щедрому безкоштовному плану та доступним цінам, він може стати цінним помічником для creators, розробників та всіх, хто цікавиться технологіями AI голосу.
Не гайте часу, спробуйте Octave самі! І не забудьте поділитися своїми враженнями в коментарях. А я поки що продовжу пошуки ідеальної моделі ліп-синхронізації. Дякую за увагу!