Data Science Game (DSG) представляют собой ежегодные соревнования, проводимые одноименной ассоциацией. Цель этого сообщества волонтеров – продвижение и развитие науки о данных и навыков, относящихся к специфическим научным проблемам и вызовам, стоящим перед студентами в таких областях как компьютерная наука, наука о данных, статистика, прикладная математика и инжиниринг. В этом году в финале участвовало 20 команд. Три из них – из России и все три заняли призовые места. В том числе – команда Сколтеха, завоевавшая третье место.

Команда Сколтех / Yandex заняла 3-е место. Слева направо: Александр Аникин, Андрей Рыков, Дмитрий Алтухов и Дмитрий Ульянов
Согласно правилам соревнований, в состав команды может входить только два аспиранта. Два других члена команды могут быть студентами-магистрантами или бакалаврами. В состав команды Сколтеха вошли студенты Андрей Рыков и Александр Аникин, аспирант Дмитрий Ульянов – все они обучаются на IT-треке Сколтеха под руководством проф. Виктора Лемпицкого. Четвертый участник – аспирант Дмитрий Алтухов, учится в МГУ. Уже до начала соревнований наша команда выиграла еще один почетный титул – “команды с самым длинным названием”.
Мы попросили Андрея Рыкова из команды “Мы хотим, чтобы наше название было самым длинным” рассказать о соревнованиях:
- Конкурс DSG состоит из двух этапов: он-лайн соревнования, задачи которого мы решали, находясь дома и очного этапа, в котором принимали участие 20 команд, приехавших в Париж. Здесь мы получили задание, которое должны были выполнить в течение уик-энда. Решения оценивались одной из популярных в анализе данных метрик, команда с наименьшим значением этой метрики становилась победителем.
Как вы решали задачу?
- Необходимо было придумать новые признаки из данных. В задачах анализа данных такое происходит довольно часто: дана некоторая информация, а нам требуется получить новую информацию путем комбинирования различных признаков и выделения скрытых зависимостей. В данном соревновании создание новых признаков оказалось краеугольным камнем решения: если команда справлялась с задачей составления новых хороших признаков, то она была в топе таблицы, в противном случае…
Как вы распределяли задачи в команде?
- Сначала мы изучали данные каждый по отдельности. Затем следовал мозговой штурм, обсуждение идей, находок, замечаний. Потом лидер команды, у которого уже были некоторые фрагменты кода, он был первым, кто предложил основное решение. Затем мы его доработали, шаг за шагом внося улучшения. Одновременно мы пробовали и другие пути решения проблемы, но они оказались не очень удачными и мы вернулись к оригинальной идее решения, которая и оказалась наилучшей.
Каково это – занять третье место на DSG?
- Мы очень счастливы и произошедшее очень вдохновляет. Мы убедились, что способны решать довольно сложные задачи и получать хорошие результаты. Я и Александр Аникин – студенты магистратуры и это наше первое соревнование на таком высоком уровне. Двое других членов команды уже имеют опыт – они аспиранты, а Дмитрий Алтухов к тому же еще и обладатель 8 места в рейтинге на Kaggle.
Каково вам было состязаться с другими командами из России, в частности – с командой МФТИ, победившей в конкурсе?
- Один из организаторов пошутил на церемонии открытия, перефразировав футбольную шутку о том, что “В футбол играют 90 минут, а потом побеждают немцы”, сказав, что Data Science Game это веселая игра, в которой в конце побеждают русские. В прошлом году победителем также стала команда из России. Я думаю, что все мы можем гордиться, что смогли подтвердить правоту этой шутки. Стоит также упомянуть, что третья команда – из МГУ, также получила приз за наиболее инновационное решение. Согласно правилам, только три команды из одной страны могут участвовать в очной стадии DSG. К счастью, все три наши команды заняли призовые места. Я думаю это отличный результат для нашей страны.
Какая связь между вашей командой и Yandex*?
- Дмитрий Ульянов работает в Yandex в качестве исследователя одновременно со своей учебой в аспирантуре. Для поездки в Париж нам был нужен спонсор и Дмитрий сумел убедить людей в Яндекс стать нашим спонсором. Забавно, но спонсор команды МГУ – конкурент Yandex компания Mail.ru. в результате, у нас получилось еще и небольшое состязание спонсоров.
Проф. Виктор Лемпицкий: “Я поздравляю команду с их достижением, которое, я должен признаться, стало для меня большим и приятным сюрпризом. Дмитрий, Андрей и Александр активно и вовлечена участвуют в исследовательских и инновационных проектах нашей группы. Каждый из них делает большую работу. Могу представить как мало у них времени было для подготовки к соревнованиям. И все же, они выступили на удивление хорошо! Поздравляю, ребята! ”
* Yandex индустриальный партнер Центра Сколтеха по научным и инженерным вычислительным технологиям для задач с большими массивами данных