Домой Технологии NVIDIA разработала систему, создающую...

NVIDIA разработала систему, создающую живой голос для ИИ

Невозможно поспорить с тем фактом, что современные голоса таких умных ассистентов, как Amazon Alexa, Google Assistant и Siri и многих других говорящих представителей области искусственного интеллекта, намного опережают то, как подобная речь была реализована в уже старых по сегодняшним меркам устройствах GPS. И тем не менее, какими бы совершенными они нам не казались, всё же невозможно отрицать того, что им по-прежнему есть куда расти. К примеру, им до сих пор не хватает ритмов, интонации и других качеств, которые делают речь куда более естественной и «человечной».

И кто бы мог подумать, но помощь в данной области приходит от того, от кого её никто не ожидал получить. Всё дело в том, что крупный производитель видеокарт, компания NVIDIA, официально объявила на недавно прошедшей конференции Interspeech 2021 о том, что фирма прямо сейчас занимается и уже подводит к концу свои очередные исследования, в результате которых будут созданы инструменты, которые «могут уловить естественные качества речи, позволяя тренировать систему ИИ собственным голосом». Специально для того, чтобы улучшить синтез голоса искусственного интеллекта, исследовательская группа NVIDIA разработала модель, которая носит название «RAD-TTS».

Она, к слову, в своё время победила на конкурсе NAB Broadcast Convention. Так или иначе, данная система позволяет человеку обучать модель преобразования текста в речь собственным голосом. В результате искусственный интеллект обучится имитировать и качественно использовать приобретённый у человека темп, тональность, тембр и многое другое, за счёт чего голос и становится живым. Другая же функция, которую способна выполнять RAD-TTS, это преобразование голоса, которое позволяет пользователю произносить слова одного говорящего, используя голос другого человека.

Данный интерфейс, как заявили в NVIDIA, обеспечивает «точное управление на уровне кадра высотой, длительностью и энергией синтезированного голоса». И кстати, используя данную технологию, исследователи из NVIDIA уже на данный момент сумели создать куда более «человечное» разговорное повествование для своей собственной серии видео «I Am AI». То есть да, в этих самых видео используются синтезированные, а не человеческие голоса. Изначальная цель компании заключалась в том, чтобы стиль повествования голоса полностью соответствовал тону и стилю видеороликов, что до сих пор не было реализовано во многих видеороликах с искусственным воспроизведением речи.

Источникengadget

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

Мы в соцсетях

2,422ФанатыМне нравится
245ЧитателиЧитать
671ЧитателиЧитать

Статьи по теме

   
                   

Сейчас читают

А так же: