В Microsoft повысили реалистичность компьютерного симулятора человеческой речи

02.10.2018 619 0.0 0
В Microsoft повысили реалистичность компьютерного симулятора человеческой речи
Инженерам Microsoft удалось повысить качество компьютерного голоса, имитирующего как мужскую, так и женскую речь. 

Об этом сообщается в блоге Microsoft Azure.

Для преодоления трудностей традиционной модели исследователи использовали нейронные сети для синтеза речи. Microsoft обещает обеспечить поддержку 49 языков, а также возможность создания уникальных голосов для нужд компаний в ближайшем будущем.

Синтез речи с помощью нейронных сетей предполагает сравнение ударения и протяжённости (т. н. просодика) единиц речи говорящего, а также их синтез в компьютерный голос.

В системах традиционного синтеза речи просодику разделяют на акустический и лингвистический анализ, которыми управляют различные модели. В результате чего речь получается шумной и невнятной.

Но в Microsoft сообщили, что им удалось объединить в одно целое две модели нейронного синтеза, в результате чего удалось добиться большей реалистичности компьютерной речи.

Разработчики убеждены, что синтез речи с помощью нейронных сетей сделает более естественным общение с виртуальными собеседниками и помощниками. Более того, это даст возможность конвертировать электронные книги в аудиокниги, а также изменить озвучивание встроенных в автомобили навигаторов.

Вычислительные мощности Azure доступны для использования в реальном времени, и за это отвечает служба Azure Kubernetes.

Одновременное применение нейронного синтеза речи вместе с традиционным говорит о расширении и повышении доступности сервиса. Но пока что в системе имеются два варианта голоса -  женский по имени Jessa и мужской по имени Guy.

В своих исследованиях технологии распознавания и синтеза речи Microsoft конкурирует с Google. В конце августа 2018 года Google Cloud обновила свои сервисы и объявила о выпуске стабильного API для синтеза речи Cloud Text-to-Speech с экспериментальной функцией аудиопрофилей и поддержкой нескольких новых языков. В то же время сервис для расшифровки аудио Cloud Speech-to-Text научился распознавать разных спикеров и самостоятельно определять язык записи из нескольких возможных.

Также, напомним, что ранее Microsoft удалила установщик Google Chrome из собственного магазина приложений. При этом в корпорации не уточнили конкретную причину, отметив только, что приложение должно быть «уникальным и отличительным»: «Мы удалили Google Chrome Installer из Microsoft Store, так как приложение нарушает политику нашего магазина».
Аватар enr091 Наталия Ришко
Журналист/lifekhacker

Комментарии
avatar
Читайте также: