В гостях у программы «Утро в Петербурге» Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН.
Василий Киров, ведущий: У тебя не возникало такого желания, чтобы, например, включаешь чайник, а руки мокрые, было бы хорошо, если бы не нужно было это делать, а можно было просто улыбнуться, и вообще, чтобы техника понимала тебя с полуслова?
Марианна Дьякова, ведущая: Это уже реальность. Во-первых, многие чайники понимают слова, а теперь ещё и жесты. Учёные Санкт-Петербургского федерального исследовательского центра Российской академии наук разработали программное обеспечение для управления электроникой при помощи жестов. Технология распознаёт движение почти со стопроцентной точностью. Чайник пока запустить не получится, но, условно говоря, когда ты захочешь поставить лайк, например, под фото в соцсетях, тебе достаточно показать в камеру большой палец.
Василий Киров, ведущий: В каких случаях и жизненных ситуациях может понадобиться такое современное программное обеспечение?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: В первую очередь это, конечно, управление всем, что связано с умным домом, различными колонками, открыть-закрыть шторы, например, что-то включить, что-то выключить – это первостепенное.
Василий Киров, ведущий: То есть история про чайник – это не фантазии какие-то, это реальность?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: Да, может такое быть.
Марианна Дьякова, ведущая: У нас зачастую такие жесты достаточно естественные. А тут, наверное, должны быть условные, для того чтобы программное обеспечение их распознало?
Василий Киров, ведущий: Как чайник запустить, каким жестом?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: Можно, например, взмахами различными.
Василий Киров, ведущий: У вас какой-то стандартный набор жестов? Или каждый человек, приобретая себе это устройство, может его обучить и назначить свои жесты?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: На текущий момент всего 34 жеста. Они все стандартные, они настроены и направлены на то, чтобы управлять чем-то. Либо, например, делать какие-нибудь скриншоты на компьютере, управлять видеоконференциями. В общем, всё, что нужно.
Марианна Дьякова, ведущая: Как вы обучали это программное обеспечение? Была ли большая выборка? Потому что жесты у всех разные, чтобы максимально обучить её.
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: Да, у нас есть 1 миллион изображений. Плюс ещё дополнительно видео, чтобы можно было динамические жесты распознавать. Выборка огромная, с разных ракурсов, разного освещения, разные люди, пол, возраст, всё, что с этим связано, огромное количество.
Василий Киров, ведущий: Как можно развить это изобретение? Вы наверняка уже задумывались помимо умного дома, ведь эта технология имеет огромное будущее. Например, переводчик с языка жестов.
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: Да, это как раз следующий этап, которым будем заниматься – помогать людям с ограниченными возможностями, которые плохо слышат, чтобы можно было распознавать язык жестов и всё, что с ним связано.
Марианна Дьякова, ведущая: Можно ли сказать, что сейчас это программное обеспечение уже полностью представлено и это законченный продукт? Или вы ещё дорабатываете эту программу?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: На текущий момент это уже законченный продукт, программа, которую действительно можно использовать в различных целях.
Василий Киров, ведущий: Кому она может пригодиться?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: Это, во-первых, для управления умным домом, а во-вторых, например, для какого-нибудь производства, где нужно жестами что-то показать, а голосом говорить не хотят или печатать неудобно. Всё, что с этим связано.
Василий Киров, ведущий: Как технически это будет устроено? То есть устанавливается камера, условно, если мы говорим про умный дом, где-то в какой-то точке, куда человек должен подойти и, если ему нужно что-то включить, показать жест. Или как это будет устроено?
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: Да, собственно, всё, что нужно – это обычная камера. Дальше уже нейросетевая модель, которую мы обучили, она будет всё брать на себя: распознавать и выдавать ответ, с помощью которого можно управлять.
Василий Киров, ведущий: А если случайно жест в камеру попадёт?
Марианна Дьякова, ведущая: Просто импульсивно что-то показываешь собеседнику, а программа считает это как команду.
Дмитрий Рюмин, старший научный сотрудник Лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН: Тогда если это жест, которого у нас нет, просто будет «жест не распознан», и всё.