Сколтех | Lexy получит от «Сколково» 5 млн рублей на решение для распознавания речи

Проект студентов Сколтеха – компания Lexy получила от гранатового комитета Фонда «Сколково» одобрение заявки на минигрант в размере 5 млн рублей. Средства будут направлены на разработку решения для распознавания человеческой речи в условиях шумных помещений.

Робот Lexy позиционируется как домашний помощник: он может подсказать время, сообщить, какая погода на улице, выдать справку на определенную тему из интернета. Также он может стать частью «умного дома» — ему можно доверить управление домашней техникой, а при появлении владельца дома робот будет первым начинать диалог. За время существования проект получил признание ряда авторитетных технологических конкурсов. Команда была названа лучшей в робототехническом треке Startup Village 2015, стала победителем российского этапа Microsoft Imagine Cup 2015 в категории «Инновации», выиграла специальную номинацию премии «Стартап года» и вошла в список полуфиналистов Innorobo 2016.

Над проектом «интеллектуального домашнего собеседника» Lexy с 2014 года работает группа студентов Сколковского института науки и технологий под руководством аспиранта лаборатории «Космической робототехники» Сколтеха Дмитрия Суворова. Сейчас Lexy — это небольшого размера устройство, оснащенное камерой, датчиками движения и сенсорами по всему периметру. Сейчас создатели Lexy заняты доработкой прототипа и улучшением его интеллекта.

Как пояснил Дмитрий Суворов, грант «Сколково» потребовался команде для того, чтобы научить робота лучше понимать запросы человека: «Мы запросили грант для разработки решения на базе массива микрофонов по локализации источников звука и формированию диаграммы направленности. Оно необходимо, чтобы распознавать человеческую речь на расстоянии до пяти метров в шумных условиях. Похожие технологии используются в Amazon Echo, но они не могут применяться сторонними производителями бытовой техники и системными интеграторами. Мы же встроим наше решение в домашнего помощника Lexy, а также запустим несколько внешних проектов с системными интеграторами, которые выражают большой интерес к нашей разработке».

По словам Суворова, разрабатываемое решение для распознавания речи по ряду технических параметров будет значительно превосходить существующие на рынке аналоги. Создатели Lexy считают, что у него есть перспективы не только как у развлекательного гаджета. В ближайшее время команда Lexy планирует провести испытания робота-помощника в роли ассистента людей с нарушениями слуха и зрения.

Но возможные применения технологии, реализуемой в Lexy, выходят далеко за эти рамки.

Альберт Ефимов, руководитель Робототехнического центра в ИТ-кластере «Сколково»

«Зрение у роботов сейчас намного более совершенно, нежели чем слух. Искусственный интеллект уже умеет отличать кошек и собак и распознавать знакомые лица лучше, чем сам человек, – отмечает руководитель Робототехнического центра в ИТ-кластере «Сколково» Альберт Ефимов. – слух пока остается слабым местом естественного взаимодействия человека и робота — электронные помощники хорошо научились распознавать команды водителей в автомобилях, но свободная, слитная человеческая речь еще слишком сложна для безошибочного распознавания. Если ребята из команды Lexy сумеют сделать то, что они заявляют, то это будет обязательно востребовано везде, где есть необходимость понимания речи человека. То, что Сколковский институт науки и технологий активно вовлечен в этот проект, наполняет нас уверенностью, что цели проекта будут достигнуты».

Дмитрий Тетерюков, профессор Сколтеха, руководитель лаборатории робототехники

Еще шире видит перспективы технологии профессор Сколтеха, руководитель лаборатории робототехники Дмитрий Тетерюков: «Система массива микрофонов для умного помощника представляет собой отдельный продукт, который может позиционироваться наряду с самим Lexy. У этой разработки множество потенциальных применений. Изначально она создавалась как система, позволяющая вести высококачественную аудиозапись во время судебных и иных заседаний, когда разговор ведётся несколькими участниками, и выделять нужный голос из целого «роя» с последующей расшифровкой речи конкретного участника процесса. Но наряду с этим, под прицелом был более широкий спектр применения. С помощью массива микрофонов, аналогичного использованному в Lexy, можно решить проблему голосовым управлением в системах, где команда отдаётся на большом расстоянии и где могут присутствовать посторонние шумы. Существующие образцы, основанные на использовании одного микрофона, неудовлетворительно справляются с определением голоса в этих условиях. Поэтому в ходе проекта мы решили сосредоточиться над создании массива микрофонов и системы обработки звука таким образом, чтобы устройство могло определять источник голосовых команд, адаптироваться к индивидуальным характеристикам голоса, обучаться, отсеивать все посторонние шумы и определять направление, где находится источник звука. Наиболее очевидный пример такого окружения – «умный дом», в котором может находиться много людей, может работать бытовая техника, а команды будут отдавать сразу несколько человек – работа в этих условиях требует чёткого распознавания звука.

Сейчас наша задача – создание масштабируемой системы из массива микрофонов и модуля обработки звукового сигнала. Результат, который мы рассчитываем получить, будет обладать широким спектром применения.

Например, система может быть использована для управления беспилотными коптерами-«дровами», не просто заменив привычные джойстики, но и сделав процесс автоматизированным. Недавно DJI представила новый квадрокоптер Phantom 4, оснащенный ультразвуковыми сенсорами, позволяющими машине огибать препятствия, дополнив их нашим устройством, можно получить коптер, способный определять голос «пилота», выделяя его из фонового шума, и реагировать на команды. Если искать аналогии с миром людей, то у беспилотника появятся «умные уши». Можно будет реализовать такую удивительную функцию как контроль различных функций дрона разными пользователями и многопользовательское голосовое управление. Например, при сьемке dronie – селфи с помощью дрона – один пользователь мог бы отдавать голосовые команды ориентацией камеры, второй высотой зависания беспилотника, а третий давать команду для съемки.

Другой ближайшей областью приложения может быть автомобильная промышленность.

Внутри автомобиля очевидным применением будет управление мультимедиа и инфотейнмент системой. Сейчас аналога нашему продукту по способности к расширению и встраиваемости в мире нет. Но это вполне интуитивное применение, а о революционном применении нашего устройства мы поговорим подробнее. Размещённый снаружи, комплекс микрофонов мог бы дополнить функционал систем активной безопасности. Сегодня в адаптивном круиз-контроле и его составляющих (системы удержания в полосе, предотвращения столкновения и наезда на пешехода, оповещения о транспорте, следующим пересекающимся курсом) широко применяются радары миллиметрового диапазона и дорогостоящие оптические датчики – лидеры (например Lidar Velodyne, установленный на Google Car, стоит $75 000). Комплекс микрофонов существенно дешевле и мог бы если не заменить, то дополнить набор этих сенсоров. Например, с помощью нашего звукового датчика мы могли бы определять расстояние до автомобиля (по шуму от сцепления колес и двигателя), определить нахождение ближайших пешеходов (по определению разговора) и групп детей, узнать о проезжающих мимо мотоциклистах и велосипедистах, расположении светофоров для слепых, определить приближение машин со звуковой сиреной.
Подобно Google Street View, на основе такой разработки мы могли бы строить интерактивную звуковую карту города TrafficVoice. Любой пользователь мог бы окунуться в мир звуков любого места города на земле.

Кроме того, недалёк тот день когда начнется массовое коммерческое применение систем коммуникации как между беспилотными, так и управляемыми человеком автомобилями и объектами инфраструктуры (Car2Car), когда машины будут передавать информацию о дорожных событиях участникам движения, находящимся в зоне проблемы. Использование комплекса на основе массива микрофонов, который мог бы определять и быстрее предупреждать водителей о случившейся аварии, нахождении рядом пешеходов, групп детей, движении «скорой» с включенной сиреной или ДТП, должен положительно сказаться на эффективности системы Car2Car. Разрабатываемое устройство может дополнить камеры в тех случаях, когда визуальная информация недоступна. Представьте, что группа детей подходит к пешеходному переходу а водитель их не видит из-за стоящего забора или дома. Автомобиль может «услышать» приближение детей либо автомобиль находящийся рядом с детьми смог бы передать информацию соседним автомобилям, назовем эту систему CarTwitter.

Но есть идея от которой просто захватывает дух, и которая могла бы быть очень интересна компаниям, выпускающим автомобили премиум-класса, таким как Mercedes, Jaguar Land Rover, Lexus, BMW. Мы назвали ее SoundTransparent. Её смысл в том, что мы наполняем машину звуками которые необходимы водителю. В настоящий момент машины настолько шумоизолированы, что водитель не слышит сигналы клаксона, приближение скорой и опасных водителей (рев мотора) и т.д. Мы могли бы выделить из потока звуков важные и воспроизвести в машине в реальном масштабе времени с эффектом SoundSorround. Кроме того, возможно стало бы наполнить салон машины звуком мотора (в спортивном режиме), сцепления колес (когда машина забуксовала) и даже звуками природы, когда водитель путешествует в живописных местах».

В планах у команды первый год после получения гранта отводится на исследования и разработки, а к концу 2016 или началу 2017 года проект уже должен «выйти в люди» и одновременно с маркетинговым продвижением собрать на этапе краудфаундинга 50 000 долларов. После чего ожидается получение первых заказов со сроком поставки в 6-12 месяцев.