Россия доминирует на соревнованиях Data Science Game (DSG) – команда Сколтеха заняла третье место

Data Science Game (DSG) представляют собой ежегодные соревнования, проводимые одноименной ассоциацией. Цель этого сообщества волонтеров – продвижение и развитие науки о данных и навыков, относящихся к специфическим научным проблемам и вызовам, стоящим перед студентами в таких областях как компьютерная наука, наука о данных, статистика, прикладная математика и инжиниринг. В этом году в финале участвовало 20 команд. Три из них – из России и все три заняли призовые места. В том числе – команда Сколтеха, завоевавшая третье место.

Skoltech / Yandex team win the 3rd place. From left to right: Aleksandr Anikin, Andrey Rykov, Dmitry Altukhov, and Dmitry Ulyanov.

Команда Сколтех / Yandex заняла 3-е место. Слева направо: Александр Аникин, Андрей Рыков, Дмитрий Алтухов и Дмитрий Ульянов

Согласно правилам соревнований, в состав команды может входить только два аспиранта. Два других члена команды могут быть студентами-магистрантами или бакалаврами. В состав команды Сколтеха вошли студенты Андрей Рыков и Александр Аникин, аспирант Дмитрий Ульянов – все они обучаются на IT-треке Сколтеха под руководством проф. Виктора Лемпицкого. Четвертый участник – аспирант Дмитрий Алтухов, учится в МГУ. Уже до начала соревнований наша команда выиграла еще один почетный титул – “команды с самым длинным названием”.

Мы попросили Андрея Рыкова из команды “Мы хотим, чтобы наше название было самым длинным” рассказать о соревнованиях:
- Конкурс DSG состоит из двух этапов: он-лайн соревнования, задачи которого мы решали, находясь дома и очного этапа, в котором принимали участие 20 команд, приехавших в Париж. Здесь мы получили задание, которое должны были выполнить в течение уик-энда. Решения оценивались одной из популярных в анализе данных метрик, команда с наименьшим значением этой метрики становилась победителем.

Команда "Мы хотим, чтобы наше название было самым длинным" во время финала DSG16.

Команда “Мы хотим, чтобы наше название было самым длинным” во время финала DSG16.

Как вы решали задачу?
- Необходимо было придумать новые признаки из данных. В задачах анализа данных такое происходит довольно часто: дана некоторая информация, а нам требуется получить новую информацию путем комбинирования различных признаков и выделения скрытых зависимостей. В данном соревновании создание новых признаков оказалось краеугольным камнем решения: если команда справлялась с задачей составления новых хороших признаков, то она была в топе таблицы, в противном случае…

Как вы распределяли задачи в команде?
- Сначала мы изучали данные каждый по отдельности. Затем следовал мозговой штурм, обсуждение идей, находок, замечаний. Потом лидер команды, у которого уже были некоторые фрагменты кода, он был первым, кто предложил основное решение. Затем мы его доработали, шаг за шагом внося улучшения. Одновременно мы пробовали и другие пути решения проблемы, но они оказались не очень удачными и мы вернулись к оригинальной идее решения, которая и оказалась наилучшей.

Каково это – занять третье место на DSG?
- Мы очень счастливы и произошедшее очень вдохновляет. Мы убедились, что способны решать довольно сложные задачи и получать хорошие результаты. Я и Александр Аникин – студенты магистратуры и это наше первое соревнование на таком высоком уровне. Двое других членов команды уже имеют опыт – они аспиранты, а Дмитрий Алтухов к тому же еще и обладатель 8 места в рейтинге на Kaggle.

Каково вам было состязаться с другими командами из России, в частности – с командой МФТИ, победившей в конкурсе?
- Один из организаторов пошутил на церемонии открытия, перефразировав футбольную шутку о том, что “В футбол играют 90 минут, а потом побеждают немцы”, сказав, что Data Science Game это веселая игра, в которой в конце побеждают русские. В прошлом году победителем также стала команда из России. Я думаю, что все мы можем гордиться, что смогли подтвердить правоту этой шутки. Стоит также упомянуть, что третья команда – из МГУ, также получила приз за наиболее инновационное решение. Согласно правилам, только три команды из одной страны могут участвовать в очной стадии DSG. К счастью, все три наши команды заняли призовые места. Я думаю это отличный результат для нашей страны.

Какая связь между вашей командой и Yandex*?
- Дмитрий Ульянов работает в Yandex в качестве исследователя одновременно со своей учебой в аспирантуре. Для поездки в Париж нам был нужен спонсор и Дмитрий сумел убедить людей в Яндекс стать нашим спонсором. Забавно, но спонсор команды МГУ – конкурент Yandex компания Mail.ru. в результате, у нас получилось еще и небольшое состязание спонсоров.

Проф. Виктор Лемпицкий: “Я поздравляю команду с их достижением, которое, я должен признаться, стало для меня большим и приятным сюрпризом. Дмитрий, Андрей и Александр активно и вовлечена участвуют в исследовательских и инновационных проектах нашей группы. Каждый из них делает большую работу. Могу представить как мало у них времени было для подготовки к соревнованиям. И все же, они выступили на удивление хорошо! Поздравляю, ребята! ”

* Yandex индустриальный партнер Центра Сколтеха по научным и инженерным вычислительным технологиям для задач с большими массивами данных

Tweet about this on Twitter0Share on Facebook0Pin on Pinterest0Share on Tumblr0Share on VK