Очевидным фактом на сегодняшний день является утверждение, согласно которому распознавание речи является одним из важнейших винтиков в развитии и популяризации искусственного интеллекта во всей индустрии. Существующие на сегодняшний день технологии распознавания речи обеспечивают работу цифровых помощников на наших с вами смартфонах, в автомобилях, и даже в умных динамиках. Однако даже несмотря на повсеместное распространение, распознавание речи даже сейчас находится лишь на стадии активной разработки. И на фоне этого корпорация Facebook решила ознаменовать крайне крупный прорыв в обучении данных систем.
Если быть более точным, то речь идёт про улучшенное изучение искусственным интеллектом новых языков. Компания заявляет, что она сумела разработать совершенно новый метод создания инструментов распознавания речи, которые не требуют прямой расшифровки данных. И если же продолжать ссылаться на сообщения Facebook, его новая система может освободить вышеназванную технологию от её зависимости, заключающейся в необходимости преобразования текста в речь. Задача, требующая действительно много времени и ресурсов, предполагает, что работающие над этим люди должны слушать и транскрибировать многочасовые аудиозаписи.
Это относительно медленный и весьма монотонный процесс, который необходимо повторять для каждого языка в отдельности, дабы итоговая технология распознавания речи работала корректно. Тем временем новая «неконтролируемая» система от Facebook способна учиться исключительно на звуковой речи и непарном тексте, что точно также позволяет ей понимать, как же именно звучит человеческое общение. Разработка Facebook, по своей сути, основана на так называемой «петле обратной связи» между генерирующей состязательной сетью, состоящей из «генератора» и «дискриминатора». Чтобы было понятней, первый выводит представления загруженных речевых паттернов, которые по началу выглядят как полная чушь, однако это меняется в тот момент, когда эти самые паттерны пропускаются через соответствующую сеть дискриминатора. Последняя, если быть проще, функционирует как некий транслятор.
Более того, корпорация Facebook также заявляет, что её технология будет способна вводить дополнительный текст, написанный людьми, с той самой целью, чтобы помочь генератору понять разницу между компьютерными и реальными результатами «понимания сущности речи людей». Этот процесс будет повторяться до тех самых пор, пока вывод генератора не совпадет с реальным текстом. Также важно отметить, что Facebook утверждает, что разработанный компанией метод позволит создавать системы распознавания речи без каких бы то ни было аннотированных наборов данных.