"Яндекс" запустил сервис для быстрого синтеза уникального голоса
Подразделение "Яндекса" Yandex B2B Tech запустило первый в России сервис для быстрого синтеза речи Brand Voice Lite.
Как рассказали "РГ" в пресс-службе отечественного IT-гиганта, на новой платформе компаниям будет достаточно загрузить 20-40 минут записи речи диктора, чтобы создать уникальный голос своего бренда.
Использование планируется для создания персонализированных голосовых ботов в контакт-центрах, а также для озвучки подкастов, образовательных материалов и других креативных бизнес-проектов. Сервис уже доступен компаниям на платформе Yandex Cloud.
Как работает быстрый синтез для бизнеса
Отдельно отмечено, что для синтеза голоса достаточно озвучить текст в интерфейсе сервиса или загрузить в него уже готовую запись. Дикторами могут стать, например, приглашенные актеры или владельцы и амбассадоры бизнеса. Они могут синтезировать голос в разных амплуа: для каждой дополнительной эмоции (например, грустной или агрессивной речи) нужно записать еще от 20 минут. Модель синтеза станет доступна в течение семи дней после загрузки записей в сервис.
Как заверяют разработчики, технология Brand Voice Lite соответствует принципам "Яндекса" при работе с синтезом речи - бизнес должен получить обязательное согласие человека на использование записи его голоса. Доступ к результатам синтеза будет только у заказчика. При этом он соглашается с правилами использования сервиса, которые ограничивают сценарии применения синтеза.
Кому нужен быстрый синтез
В беседе с "РГ" представитель компании привел данные о том, что по оценке Fortune Business Insights, глобальный объем рынка разговорного ИИ в 2024 г. достиг $12,2 млрд, и в 2025 году он вырастет на 21% и составит $14,8 млрд. Объем российского рынка диалогового ИИ в 2024 году должен был достигнуть 7,45 млрд руб., прогнозировали в Naumen.
"Синтезированные голоса наиболее востребованы у банков, крупных ритейлеров и телеком-операторов, которые с их помощью автоматизируют первую линию поддержки. Всего с помощью технологий SpeechKit Brand Voice компании синтезировали уже более 50 голосов. После запуска Lite-версии сервиса мы ожидаем многократное увеличение таких проектов", - рассказал CTO платформы Yandex Cloud Иван Пузыревский.
Подчеркивается, что в основе Brand Voice Lite - собственные ML-модели Yandex SpeechKit, которые дообучаются под каждого клиента на их датасетах. Данные для обучения, как утверждают в Yandex B2B Tech, хранятся в собственных дата-центрах, которые отвечают самым строгим стандартам в сфере информационной и физической безопасности.