В Microsoft повысили реалистичность компьютерного симулятора человеческой речи
02.10.2018 619 0
Инженерам Microsoft удалось повысить качество компьютерного голоса, имитирующего как мужскую, так и женскую речь.
Об этом сообщается в блоге Microsoft Azure.
Для преодоления трудностей традиционной модели исследователи использовали нейронные сети для синтеза речи. Microsoft обещает обеспечить поддержку 49 языков, а также возможность создания уникальных голосов для нужд компаний в ближайшем будущем.
Синтез речи с помощью нейронных сетей предполагает сравнение ударения и протяжённости (т. н. просодика) единиц речи говорящего, а также их синтез в компьютерный голос.
В системах традиционного синтеза речи просодику разделяют на акустический и лингвистический анализ, которыми управляют различные модели. В результате чего речь получается шумной и невнятной.
Но в Microsoft сообщили, что им удалось объединить в одно целое две модели нейронного синтеза, в результате чего удалось добиться большей реалистичности компьютерной речи.
Разработчики убеждены, что синтез речи с помощью нейронных сетей сделает более естественным общение с виртуальными собеседниками и помощниками. Более того, это даст возможность конвертировать электронные книги в аудиокниги, а также изменить озвучивание встроенных в автомобили навигаторов.
Вычислительные мощности Azure доступны для использования в реальном времени, и за это отвечает служба Azure Kubernetes.
Одновременное применение нейронного синтеза речи вместе с традиционным говорит о расширении и повышении доступности сервиса. Но пока что в системе имеются два варианта голоса - женский по имени Jessa и мужской по имени Guy.
В своих исследованиях технологии распознавания и синтеза речи Microsoft конкурирует с Google. В конце августа 2018 года Google Cloud обновила свои сервисы и объявила о выпуске стабильного API для синтеза речи Cloud Text-to-Speech с экспериментальной функцией аудиопрофилей и поддержкой нескольких новых языков. В то же время сервис для расшифровки аудио Cloud Speech-to-Text научился распознавать разных спикеров и самостоятельно определять язык записи из нескольких возможных.
Также, напомним, что ранее Microsoft удалила установщик Google Chrome из собственного магазина приложений. При этом в корпорации не уточнили конкретную причину, отметив только, что приложение должно быть «уникальным и отличительным»: «Мы удалили Google Chrome Installer из Microsoft Store, так как приложение нарушает политику нашего магазина».
Об этом сообщается в блоге Microsoft Azure.
Для преодоления трудностей традиционной модели исследователи использовали нейронные сети для синтеза речи. Microsoft обещает обеспечить поддержку 49 языков, а также возможность создания уникальных голосов для нужд компаний в ближайшем будущем.
Синтез речи с помощью нейронных сетей предполагает сравнение ударения и протяжённости (т. н. просодика) единиц речи говорящего, а также их синтез в компьютерный голос.
В системах традиционного синтеза речи просодику разделяют на акустический и лингвистический анализ, которыми управляют различные модели. В результате чего речь получается шумной и невнятной.
Но в Microsoft сообщили, что им удалось объединить в одно целое две модели нейронного синтеза, в результате чего удалось добиться большей реалистичности компьютерной речи.
Разработчики убеждены, что синтез речи с помощью нейронных сетей сделает более естественным общение с виртуальными собеседниками и помощниками. Более того, это даст возможность конвертировать электронные книги в аудиокниги, а также изменить озвучивание встроенных в автомобили навигаторов.
Вычислительные мощности Azure доступны для использования в реальном времени, и за это отвечает служба Azure Kubernetes.
Одновременное применение нейронного синтеза речи вместе с традиционным говорит о расширении и повышении доступности сервиса. Но пока что в системе имеются два варианта голоса - женский по имени Jessa и мужской по имени Guy.
В своих исследованиях технологии распознавания и синтеза речи Microsoft конкурирует с Google. В конце августа 2018 года Google Cloud обновила свои сервисы и объявила о выпуске стабильного API для синтеза речи Cloud Text-to-Speech с экспериментальной функцией аудиопрофилей и поддержкой нескольких новых языков. В то же время сервис для расшифровки аудио Cloud Speech-to-Text научился распознавать разных спикеров и самостоятельно определять язык записи из нескольких возможных.
Также, напомним, что ранее Microsoft удалила установщик Google Chrome из собственного магазина приложений. При этом в корпорации не уточнили конкретную причину, отметив только, что приложение должно быть «уникальным и отличительным»: «Мы удалили Google Chrome Installer из Microsoft Store, так как приложение нарушает политику нашего магазина».
Комментарии
Читайте также: