В гостях у программы «Утро в Петербурге» Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН.
Василий Киров, ведущий: Специалисты Санкт-Петербургского Федерального исследовательского центра Российской академии наук создали программный комплекс, который способен на основе интеллектуального анализа видео распознавать жестовый язык и преобразовывать его в текст. Приложение планируется использовать в медицинских учреждениях для того, чтобы повысить эффективность оказания врачебной помощи для пациентов с нарушением слуха. Насколько остра необходимость в данном комплексе?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: Эта идея возникла из проблемы, которая у нас существует. У нас в стране проживает много людей, у которых присутствуют различные проблемы со слухом. Они часто обращаются в медицинские учреждения. А сурдопереводчиками эти учреждения могут быть не укомплектованы.
Людмила Ширяева, ведущая: Расскажите подробнее. Там задействована нейросеть, в которую уже загружено 85 жестов. Как это работает?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: На первом этапе мы разработали методику для сбора корпуса. Потом поехали в Полоцк, в колледж, где обучаются люди с нарушениями слуха и записали некоторый набор жестов. Потом мы разработали метод на основе нейронной сети для распознавания этих 85 жестов. Это не все жесты, а только необходимые для обращения в медицинское учреждение.
Василий Киров, ведущий: А как быстро программа преобразовывает эти жесты в текст?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: На данном этапе мы стараемся достичь реального времени.
Людмила Ширяева, ведущая: А есть ли сейчас уже промежуточные результаты? На какой стадии находится разработка?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: Сейчас мы достигли точности больше 90% на 85 жестах. Следующий этап — это уже тестирование на людях в реальных условиях в медицинских учреждениях.
Василий Киров, ведущий: Это будет приложение на смартфоне у врача, которым он сможет воспользоваться во время приема пациента с нарушением слуха?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: Да. Либо будет установлена обычная камера, с которой будет приходить расшифровка жестов текстом.
Людмила Ширяева, ведущая: Уже известно, когда и в каком виде люди смогут воспользоваться этой разработкой?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов Санкт-Петербургского Федерального исследовательского центра РАН: Итоговую версию приложения мы планируем выпустить в мае этого года. Впоследствии она будет общедоступной.