Ученые из Северной столицы научили нейросеть читать по губам. Это нужно для повышения точности распознавания речи в смартфонах.
Новая разработка поможет использовать голосовые команды в сложных условиях и при высоком уровне шума. Об этом рассказали в пресс-службе Санкт-Петербургского Федерального исследовательского центра РАН.
Для улучшения точности распознавания программа анализирует данные из двух источников и совмещает их. Эксперименты показали, что такая система намного лучше распознает команды человека.
В основе разработанного учеными приложения лежит нейросетевая модель, обученная распознаванию речи по аудиовизуальным сигналам – видео со звуком. Она может понимать несколько сотен самых распространенных команд.
По словам разработчиков, нейросеть может распознавать аудиовизуальные сигналы и самостоятельно решать, какие данные – видео или звук – дадут максимальную точность.