В гостях у программы «Утро​ в​ Петербурге» Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН.

Василий Киров, ведущий: Специалисты Санкт-Петербургского Федерального исследовательского центра Российской академии наук создали программный комплекс, который способен на основе интеллектуального анализа видео распознавать жестовый язык и преобразовывать его в текст. Приложение планируется использовать в медицинских учреждениях для того, чтобы повысить эффективность оказания врачебной помощи для пациентов с нарушением слуха. Насколько остра необходимость в данном комплексе?

Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: Эта идея возникла из проблемы, которая у нас существует. У нас в стране проживает много людей, у которых присутствуют  различные проблемы со слухом. Они часто обращаются в медицинские учреждения. А сурдопереводчиками эти учреждения могут быть не укомплектованы.

Людмила Ширяева, ведущая: Расскажите подробнее. Там задействована нейросеть, в которую уже загружено 85 жестов. Как это работает?

Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: На первом этапе мы разработали методику для сбора корпуса. Потом поехали в Полоцк, в колледж, где обучаются люди с нарушениями слуха и записали некоторый набор жестов. Потом мы разработали метод на основе нейронной сети для распознавания этих 85 жестов. Это не все жесты, а только необходимые для обращения в медицинское учреждение.

Василий Киров, ведущий: А как быстро программа преобразовывает эти жесты в текст?

Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: На данном этапе мы стараемся достичь реального времени.

Людмила Ширяева, ведущая: А есть ли сейчас уже промежуточные результаты? На какой стадии находится разработка?

Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: Сейчас мы достигли точности больше 90% на 85 жестах. Следующий этап — это уже тестирование на людях в реальных условиях в медицинских учреждениях.

Василий Киров, ведущий: Это будет приложение на смартфоне у врача, которым он сможет воспользоваться во время приема пациента с нарушением слуха?

Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: Да. Либо будет установлена обычная камера, с которой будет приходить расшифровка жестов текстом.

Людмила Ширяева, ведущая: Уже известно, когда и в каком виде люди смогут воспользоваться этой разработкой?

Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: Итоговую версию приложения мы планируем выпустить в мае этого года. Впоследствии она будет общедоступной.