Американский стартап Hume AI анонсировал выпуск новой модели для генерации речи под названием Octave 2. Эта модель уже признана одной из самых быстрых на рынке, с задержкой менее 200 миллисекунд, что позволяет генерировать речь в реальном времени. Такое достижение открывает новые возможности для применения в чат-ботах, голосовых ассистентах и других интерактивных системах, где важна естественная пауза между репликами, сообщает bitbetnews.com.
Важные характеристики Octave 2
Модель Octave 2 поддерживает 11 языков, включая русский, английский, французский, испанский и китайский. Она может клонировать голоса, копируя тембр говорящего с короткого образца. Кроме того, Octave 2 способна адаптировать голос под нужный пол, возраст, интонации, а также управлять эмоциями — от спокойного тона до ярко выраженной эмоции. Модель даже позволяет редактировать фонемы для точного произношения редких слов, имен или брендов.
По сравнению с предыдущей версией Octave, новая модель улучшена на 40% по скорости, а также значительно снизила стоимость генерации речи почти вдвое. Качество звучания также улучшилось — от четкости дикции до передачи интонаций.
Применение и доступность
Octave 2 доступна для тестирования на сайте Hume AI и через API для разработчиков. В блоге компании можно найти примеры аудио и видео, которые демонстрируют возможности новой модели. С запуском Octave 2 Hume AI надеется преодолеть главный барьер в области TTS (синтез речи) — задержку, обеспечив таким образом естественный диалог между человеком и машиной без привычных пауз.
Модель Octave 2 от Hume AI представляет собой значительный шаг вперед в области генерации речи. Благодаря быстродействию и улучшенному качеству звука, она откроет новые горизонты для голосовых технологий, делая взаимодействие с машиной более естественным и удобным для пользователей.
Ранее мы сообщали, что OpenAI превзошла SpaceX и стала самой дорогой частной компанией.
