Российские сервисы наращивают объёмы аудиокниг, озвученных искусственным интеллектом
Российские книжные сервисы и издательства внедряют искусственный интеллект (ИИ) для озвучивания аудиокниг. В перспективе технологии могут помочь в разы ускорить и удешевить производство в сегменте, однако некоторые эксперты отмечают, что сейчас нейросети не могут полноценно заменить диктора и не подходят для некоторых типов литературы, пишет «Коммерсантъ» со ссылкой на источники.
В частности, книжный сервис «Строки» (принадлежит МТС) планирует в этом году озвучить свыше 10 тыс. произведений при помощи ИИ от разработчиков MTS AI. Записывать книги будут при помощи платформы Audiogram. В её основе — нейросети, машинное обучение и технологии обработки естественного языка (natural language processing, NLP). В работе уже находятся порядка 600 произведений, передаёт издание.
Технология позволяет синтезировать речь, ставить ударения и делать паузы, воспроизводить вопросительную, побудительную и другие интонации. Инвестиции в проект в компании не раскрыли.
Кроме того, ГК «ЛитРес» (сервисы «ЛитРес», MyBook, Livelib) также развивает озвучивание при помощи ИИ. По словам директора департамента по развитию контента группы Евгения Селиванова, технологию запустили ещё в 2020 году, а осенью 2022-го начали активно использовать. В основе ИИ — сервис распознавания и синтеза речи SpeechKit, на котором работает голосовой помощник «Алиса» от «Яндекса».
В прошлом году «ЛитРес» выпустил порядка 6 тыс. книг, которые озвучили люди, при этом ИИ озвучил половину этого объёма за два месяца. Себестоимость озвучки одной книги при при помощи такой технологии составляет 400–700 руб., а в отличие от стандартной роботизированной озвучки она запоминает паузы, отмеченные редактором, и расставляет их самостоятельно, рассказал Селиванов изданию.
Более 90% книг сейчас не имеют аудиоверсии, а их озвучание традиционным способом могло занять годы, отметили в МТС. На подготовку начальной версии аудиокниг при помощи ИИ уходит 30-60 минут, а студийная запись дикторским голосом занимает до нескольких дней с учётом обработки и монтажа, добавили в компании. Кроме того, работа диктора стоит от 50 тыс. руб. за книгу, отметил другой собеседник издания.
Технология ещё несовершенна и не может заменить диктора: по словам Селиванова, для работы ИИ необходимо дополнительно размечать текст, добавлять ударения для сложных слов, а также помогать технологии воспроизводить правильную интонацию. Однако «ЛитРес» планирует улучшить процесс записи в 2023 году. Пользователи хорошо относятся к такой озвучке, если не сталкиваются с неправильными ударениями и интонациями, отметил эксперт.