Учёные МГППУ сократили количество ложных срабатываний в трекинге глаз


Учёные Московского государственного психолого-педагогического университета разработали алгоритм машинного обучения, который повысил точность и удобство управления компьютером с помощью взгляда. Тест на вариации игры Lines, в которой нужно создавать комбинации из шаров на игровом поле, показал, что алгоритм в три раза снижает риск ложных срабатываний системы управления взглядом и позволяет пользователям играть, не проигрывая, на 15% дольше, чем при использовании обычной системы управления взглядом.

Управление с помощью взгляда — технология, наиболее известная по компьютерным интерфейсам, в частности, в системах виртуальной и дополненной реальности. Однако авторы проекта подчёркивают её универсальность. Например, она полезна для пациентов с нарушениями двигательных функций.

Тем не менее, у технологии есть существенный недостаток: она не всегда корректно различает, когда пользователь с помощью взгляда хочет дать какую-то команду, а когда просто смотрит на изображение на экране. В результате происходят ложные срабатывания, возникает необходимость выполнять дополнительные действия для подтверждения намерений, что затрудняет использование интерфейса.

Сотрудники МГППУ определили, что намеренные задержки взгляда качественно отличаются от случайных. Это позволило подобрать алгоритм машинного обучения, который разделял слегка удлинённые задержки (500 миллисекунд и более), намеренные (управляющие) и спонтанные (зрительные).

Чтобы отличить намеренные задержки от спонтанных, алгоритм использовал два отдельных классификатора. Первый опирался на особенности микродвижений глаз, второй — на признаки, описывающие контекст игры, такие как текущее расположение объектов и потенциальные возможности для совершения ходов. Окончательное решение о том, намеренно или случайно пользователь остановил взгляд, принималось на основе усреднённого значения вероятностей, вычисленных обеими моделями.

Авторы протестировали алгоритм в игре EyeLines, которую создали специально для исследований окулографии на основе популярной некогда игры Lines. В её новой версии взглядом можно выбирать цветные шары и позиции для их перемещения на игровом поле. Ученые предложили сыграть в EyeLines 15 добровольцам, при этом участники тестировали два режима: со стандартным управлением (где любая задержка взгляда длительностью более 500 миллисекунд воспринималась как команда к действию) и с новым алгоритмом.

Поле в EyeLines
Поле в EyeLines

Участники исследования должны были с помощью управления взглядом сформировать на игровом поле линии из четырёх и более одинаковых по цвету шаров. После успешного составления линии она исчезала, в противном случае на поле случайным образом добавлялись новые шары. Игра завершалась при заполнении поля либо по истечении восьми минут.

Эксперимент проводили в течение двух дней. Каждый день испытуемые играли по три игры в каждом режиме. В первый день ученые использовали классификаторы, предварительно обученные на данных предыдущих исследований. Во второй день применяли индивидуальные модели, обученные на данных, собранных в ходе первого дня.

Результат показал, что при использовании машинного обучения система управления взглядом в три раза реже срабатывала ошибочно, то есть воспринимала случайную остановку взгляда за намеренную. Это позволило участникам исследования эффективнее взаимодействовать с игрой.

В обоих режимах игры участники перемещали и удаляли шарики с поля с одинаковой скоростью, однако улучшенный подход позволял испытуемым выполнять меньше действий для удаления того же количества шаров и играть примерно на 15% дольше. То есть в этом случае меньше игр заканчивалось преждевременно из-за заполнения игрового поля.

Подобные исследования проводились и раньше, но в очень упрощённых условиях, где искусственно создавались значительные различия между намеренными и спонтанными задержками взгляда. В нашем исследовании впервые показано, что такие задержки можно успешно различать и в условиях, близких к тем, в которых технология используется на практике. Кроме того, мы экспериментально доказали, что повысить точность распознавания намеренных задержек взгляда можно, если дополнительно учитывать контекст действий пользователя. Полученные результаты открывают новые перспективы для широкого применения управления взглядом не только пациентами с двигательными нарушениями, но и здоровыми людьми, например, использующими виртуальную или дополненную реальность, — рассказывает руководитель проекта Сергей Шишкин, кандидат биологических наук, руководитель группы нейрокогнитивных интерфейсов, ведущий научный сотрудник МЭГ-центра МГППУ и руководитель гранта Российского научного фонда, в рамках которого шло исследование.

Участники группы исследователей подчёркивают полезность технологии для развития виртуальной и дополненной реальности, а также в системах управления компьютерами, адаптированными для людей с ограниченными возможностями движения. Результаты исследования, поддержанного грантом Российского научного фонда (РНФ), опубликованы в журнале IEEE Access.

Ценность исследования

Голографике удалось побеседовать с Сергеем Шишкиным о перспективах применения результатов исследования. Сергей подчёркивает, что за пределами безусловно важнейшего медицинского применения лежит растущий глобальный тренд пространственных вычислений, в котором очки с отслеживанием взгляда уже сейчас играют ведущую роль.

Управление компьютером с помощью взгляда, или, как я его называю, глазоуправление — это технология взаимодействия с компьютером, которую уже довольно долго используют парализованные люди. Совсем недавно, с появлением Apple Vision Pro, выяснилось, что она может быть вполне интересна и здоровым людям, ведь в виртуальной и дополненной реальности обычные способы взаимодействия с техникой не очень удобны, и тут глаза вполне могут конкурировать с ними.

Однако в глазоуправлении существует фундаментальная проблема. Команду проще всего подавать короткими (например, на полсекунды) задержками взгляда на элементах управления, например, виртуальных кнопках. Но такие задержки часто происходят и совершенно спонтанно, например, когда пользователь рассматривает иконку или надпись на кнопке. Чувствительная к задержке взгляда кнопка будет нажата, хотя пользователь не хотел этого. Такую неразборчивость чувствительных к взгляду интерфейсов называют проблемой прикосновения Мидаса. Решают её обычно дополнением задержек взгляда разными дополнительными действиями пользователя. Например, пользователь Vision Pro делает движение пальцами руки, чтобы подтвердить «нажатие» на виртуальную кнопку. Но это не очень удобно, и хотелось бы разделять намеренные и спонтанные задержки взгляда без всяких дополнительных действий.

Коллега Сергея, старший научный сотрудник МЭГ-центра и кандидат биологических наук Анатолий Васильев, в ходе анализа особенностей траектории взгляда при спонтанных и намеренных задержках обнаружил между ними различия.

Под его руководством наша сотрудница Юлия Шевцова разработала алгоритмы, которые смогли различать намеренные и спонтанные задержки по совокупности признаков — сначала в оффлайн-симуляциях, а затем и на лету при использовании глазоуправления. И, наконец, Юлия вместе с ещё одним нашим коллегой Артёмом Яшиным провела исследование с троекратным сокращением частоты ложных срабатываний.

По словам Сергея, в последние годы методы машинного обучения применяли и другие учёные, однако все они испытывали алгоритмы в упрощённых условиях. В одной из таких работ намеренность задержки взгляда помогало определять расширение зрачка.

Авторы, — объясняет Сергей, — не учли, что зрачку свойственно автоматически расширяться, когда мы находим цель после некоторого периода поиска, поэтому их технология не смогла бы работать при заранее известных позициях экранных кнопок, которые не нужно искать. В нашем же исследовании мы выбрали для тестирования игровую среду на основе классической игры «Линии», в которой зрительные задачи были весьма разнообразными и гораздо больше приближенными к реальным условиям использования интерфейсов, чувствительных ко взгляду. Поэтому, видимо, вполне можно говорить, что мы впервые доказали реальную применимость машинного распознавания намеренности задержек взгляда в глазоуправлении.

Не пропускайте важнейшие новости о дополненной и виртуальной реальности — подписывайтесь на Голографику в Telegram, ВК и Twitter! Поддержите проект на Boosty.

Далее: UNIGINE обновила SDK, улучшив поддержку OpenXR