Сколтех — новый технологический университет, созданный в 2011 году в Москве командой российских и зарубежных профессоров с мировым именем. Здесь преподают действующие ученые, студентам дана свобода в выборе дисциплин, обучение включает работу над собственным исследовательским проектом, стажировку в индустрии, предпринимательскую подготовку и постоянное нахождение в международной среде.

Ученые из Сколтеха научились манипулировать взглядом человека на изображениях

Ученые из Группы Компьютерного Зрения Сколтеха  под руководством профессора Виктора Лемпицкого разработали алгоритм, позволяющий изменять направление взгляда человека на изображениях и видео, в том числе и в режиме реального времени.

Во время видеоконференций (например, по Skype) собеседники обычно смотрят на экран, но не в камеру, из-за чего взгляд оказывается направлен немного вниз, и теряется ощущение реального разговора. С похожей проблемой сталкиваются и телевизионные дикторы, которым необходимо одновременно читать текст и смотреть на зрителей. Для решения этой задачи (в литературе она носит название “коррекция взгляда” или “gaze correction”) прибегают к помощи специальных, часто дорогостоящих технических средств.

Система, созданная учеными из Сколтеха, использует лишь обыкновенную цифровую камеру ноутбука или смартфона и не требует никаких дополнительных устройств. В основе подхода лежит использование глубоких нейронных сетей (deep learning), метода машинного обучения, позволившего за последние несколько лет добиться выдающихся результатов в таких сферах, как обработка текстовых данных, распознавание речи и компьютерное зрение.

Ярослав Ганин, автор исследования: “Сначала в кадре при помощи специального алгоритма локализуется область глаза и вычисляется набор характерных точек. Эти данные вместе с углом, на который нужно скорректировать направление взгляда, поступают на вход глубокой нейросети. Результатом работы модели является так называемое “поле смещений”, то есть деформация, которую нужно применить ко входному изображению глаза, чтобы получить скорректированное. Отсюда и название метода ー DeepWarp (глубокая деформация).”

Виктор Лемпицкий, руководитель Группы Компьютерного Зрения: “Данная работа ー это продолжение нашего давнего проекта, который уже идет третий год. Сейчас нам удалось значительно улучшить метод за счет применения алгоритмов глубокого обучения. До этого мы могли корректировать взгляд только на фиксированный угол. Теперь же мы можем перенаправлять взгляд не только на произвольный угол, но и в произвольном направлении.”

Даниил Кононенко, соавтор исследования: “Обучение такой глубокой нейросети, как DeepWarp, требует большого объема данных. Это критично для обобщающей способности модели, т.е. для хорошей работы метода в условиях, отличных от тренировочных. К сожалению, ни один из публично доступных наборов релевантных данных не отвечает требованиям объема и качества, поэтому мы решили создать собственную базу и разработали для этого специальные технические средства и программное обеспечение. Сбор данных осуществлялся на протяжении нескольких месяцев при участии студентов и сотрудников Сколтеха. Нам удалось получить внушительную тренировочную базу и тем самым обеспечить впечатляющее качество работы системы.”

Диана Сунгатуллина, соавтор исследования: “Дальнейшим направлением исследований будет ускорение предложенного метода. Сейчас алгоритм работает в режиме реального времени на графическом процессоре, нам хотелось бы получить сравнимое время на любом стареньком ноутбуке без потери качества и универсальности модели.”

DeepWarp ー один из нескольких проектов, разработанных в группе Виктора Лемпицкого и посвященных синтезу изображений с помощью нейронных сетей. Исследователи отмечают большой практический потенциал этого направления. Так проект по манипуляции взглядом может быть востребован не только для видеоконференций, как отмечалось выше, но и в фото- и киноиндустрии как средство для пост-обработки.

В октябре результаты исследования будут представлены в Амстердаме на 14ой Европейской Конференции по Компьютерному Зрению.

Контакты:
Skoltech Communications
+7 (495) 280 14 81

Share on VK