Важна артикуляция: в Петербурге создали приложение, которое может в шумных местах распознавать речь по губам

15 мая , 07:45

В гостях у программы «Утро в Петербурге» Денис Иванько, старший научный сотрудник Санкт-Петербургского федерального исследовательского центра РАН, кандидат технических наук.

Тимофей Зудин, ведущий: Ученые Федерального исследовательского центра создали приложение, которое может в шумных местах распознавать речь по губам. Почему возникла необходимость разработки такого приложения?

Денис Иванько, старший научный сотрудник Санкт-Петербургского федерального исследовательского центра РАН, кандидат технических наук: На сегодняшний день точность и надежность распознавания голосовых помощников достаточно низкая. В 1973 году было доказано, что человек обращает внимание не только на акустическую информацию, но и на движение губ собеседника. Это получило название эффект Мак-Гурка.

Ксения Бобрикова, ведущая: Как идет обучение искусственного интеллекта на распознавание речи?

Денис Иванько, старший научный сотрудник Санкт-Петербургского федерального исследовательского центра РАН, кандидат технических наук: Распознавание речи по губам близко к распознаванию речи по аудио. Большое количество обучающих данных мы обучаем в наших системах распознавания. Но проблема была в том, что видеоинформацию гораздо сложнее разметить, и она занимает гораздо больше компьютерного и вычислительного места. Последние 5-7 лет технологии развились до такой степени, что появилось машинное зрение, искусственный интеллект. Появились технические и научные методы, как это можно сделать. Большой прогресс возник благодаря дикторам, поскольку первая открытая база данных чтения по губам — это были видео с 10 лет телеканала ВВС.

Ксения Бобрикова, ведущая: Основная цель — это распознавание речи при наличии шума?

Денис Иванько, старший научный сотрудник Санкт-Петербургского федерального исследовательского центра РАН, кандидат технических наук: Мы хотим дать системе возможность воспринимать не только аудио информацию, но и видео. И объединить их наилучшим способом. Тогда в любых условиях получаем максимально высокое качество распознавания.

Тимофей Зудин, ведущий: У людей разная артикуляция. Есть слова, которые произносятся одинаково. Как система их распознает?

Денис Иванько, старший научный сотрудник Санкт-Петербургского федерального исследовательского центра РАН, кандидат технических наук: Мы не говорим о распознавании всех фраз подряд. А только наиболее частые запросы.

Тимофей Зудин, ведущий: Есть ли привязка к конкретному человеку?

Денис Иванько, старший научный сотрудник Санкт-Петербургского федерального исследовательского центра РАН, кандидат технических наук: Да. На сегодняшний день система лучше всего показывает в дикторозависимых условиях. Чем больше фраз одного диктора, тем лучше система будет его распознавать.

Ксения Бобрикова, ведущая: Сможет ли в будущем приложение помочь немым людям? Чтобы их речь производилась приложением.

Денис Иванько, старший научный сотрудник Санкт-Петербургского федерального исследовательского центра РАН, кандидат технических наук: У нас проводилось исследование совместно с Павловской школой глухонемых людей. Но, к сожалению, было выявлено, что их артикуляция отличается от артикуляции слышащих людей. Поэтому наша система, которая обучена на слышащих людях, не смогла достаточно хорошо распознавать. Для достижения лучшего результата необходимо большее количество данных, записанных глухонемых людей с разметкой. Так мы сможем обучить систему.