Сколтех | Методы, разработанные в Сколтехе, будут представлены на крупнейшей мировой конференции по искусственному интеллекту и машинному обучению

Две работы исследователей из группы Компьютерного зрения профессора Сколтеха Виктора Лемпицкого приняты к участию в NIPS – крупнейшем мировом форуме по искусственному интеллекту и машинному обучению. В 2016 году NIPS пройдет в Барселоне 5-11 декабря. Статьи, прошедшие строгий отбор, посвящены работе с изображениями при помощи нейронных сетей с глубинным обучением.

Группа Компьютерного зрения занимается созданием компьютерных систем, позволяющих извлекать и систематизировать информацию, содержащуюся в изображениях разного происхождения. Для этого ученые разрабатывают новые современные методы машинного обучения, которые могут быть адаптированы под разнообразие визуальной информации в современном мире. Одним из таких методов, оптимизацией которого активно занимаются в лаборатории Лемпицкого, является глубинное обучение нейронных сетей.

Первая работа, которая будет представлена на конференции, выполнена в соавторстве выпускником магистратуры Сколтеха Олегом Гринчуком и аспирантом Сколтеха Вадимом Лебедевым и посвящена методу, позволяющему создавать визуальные маркеры аналоги бар-кодов и получивших широкое распространение QR-кодов. В своей работе исследователи предлагают новый подход к дизайну визуальных маркеров. В представленной работе маркеры создаются синтезирующей нейросетью, в то время как распознавание происходит при помощи распознающей нейросети. Обучающий процесс настраивает параметры обоих нейросетей параллельно, оптимизируя как устойчивость распознавания, так и эстетические качества маркеров. В результате создаваемые с помощью алгоритмов глубинного обучения нейронных сетей визуальные маркеры, могут быть выполнены в любом визуальном стиле, в том числе и в стиле той или иной организации. Это их главное отличие от привычных черно-белых QR-кодов и прочих существующих на рынке систем. Маркеры, разработанные в группе Лемпицкого яркие и красивые, но при этом они кодируют информацию. Примеры маркеров доступны на странице проекта.

Вадим Лебедев: “ При создании визуального маркера на вход мы подаем битовую последовательность (от 64 до 256 бит), далее специальная нейросеть рисует по этому коду маркер, потом его можно распечатать, повесить на стену и сфотографировать. Чтобы его раскодировать нужна вторая нейросеть, она восстанавливает код по фотографии. Мы научились моделировать то что происходит с картинкой при распечатке и фотографировании, и это позволило нам обучать две сети одновременно. Большой плюс такого подхода в гибкости, мы можем контролировать то, как будет происходить считывание и адаптировать маркеры под конкретные считывающие устройства.”

Пока единственное ограничение данной технологии – объем закодированной информации, меньший чем в QR-кодах. Тем не менее маркеры могут использоваться для кодирования динамических ссылок, а также пользовательской навигации в пространстве уже сейчас.

Вторая работа, принятая на конференцию, выполнена в соавторстве с аспиранткой Сколтеха Евгенией Устиновой и посвящена фундаментальной задаче обучения нейросетей, решающих проблему построения компактных представлений данных, пригодных для поиска по изображениям. Исследователям удалось разработать новый критерий для тренировки таких нейросетей, требующий существенно меньших усилий по настройке параметров обучения и позволяющий получать представления, приводящие к более точному поиску и распознаванию.

Глубинные нейронные сети состоят из множества слоев, что позволяет им справляться с очень сложными задачами. Сейчас нейронные сети используются, например, для распознавания речи, текста, классификации изображений и другого машинного обучения. Группа Компьютерного зрения Сколтеха фокусируется именно на работе с визуальной информацией. Среди последних достижений лаборатории: алгоритм, позволяющий манипулировать взглядом на изображениях и видео, алгоритм для стилизации изображений и синтеза текстур в реальном времени, и разработанный, в соавторстве с коллегами из Оксфорда, метод для обнаружения объектов на микрофотографиях. Группа Компьютерого Зрения разрабатывает технологии, которые успешно внедряют на практике. Например, совсем недавно технология обеспечения зрительного контакта в видеоконференциях была лицензирована компанией RealD.

Виктор Лемпицкий: “Опубликоваться на NIPS становится сложнее с каждым годом. Две работы нашей группы, отобранные на конференцию, представляют довольно разные направления, свидетельствуют о хорошем уровне исследований в нашей группе и имеют много практических применений. Я поздравляю всех причастных.”

* NIPS (Advances in Neural Information Processing Systems) — это ведущий мировой форум по исследованиям в области искусственного интеллекта и машинного обучения, проводящийся ежегодно с 1987 года. Работы, поданные на конференцию проходят жесткий конкурентный отбор на основе анонимного рецензирования.

Контакты:
Skoltech Communications
+7 (495) 280 14 81