О том, кто такой FEDOT и как он помог ребятам в достижении таких результатов, а также почему студентам магистратуры и опытным разработчикам важно участвовать в подобных соревнованиях, рассказали Анна Калюжная, руководитель лаборатории «Моделирование природных систем», и Илья Ревин, инженер-разработчик, возглавляющий команду НЦКР на хакатоне Emergency DataHack.
— Илья, вы возглавляли команду, которая предложила лучшее решение на одном из треков в рамках хакатона Emergency DataHack. По словам организаторов, вы победили с огромным отрывом. Как вам удалось за пару дней предложить решение, на которое обычно уходит не меньше нескольких месяцев?
— Дело в том, что с нами в команде был FEDOT. Вы не найдете его в списке участников, но это не умаляет его достижений. FEDOT — это фреймворк автоматического машинного обучения, который позволяет создавать и оптимизировать цепочки моделей (пайплайны) или отдельные их элементы.
— Это был первый случай, когда вы использовали FEDOT для поиска решений на соревнованиях?
— Нет, частично мы использовали этот фреймворк весной на хакатоне Норникеля. Там мы тоже вошли в число лидеров, разделив первое место с командой «Канапе», состоявшей из data scientists Сбера и МТС.
— Там вы тоже прогнозировали и предотвращали чрезвычайные ситуации?
— Нет, задание было совсем другим. В хакатоне было два трека: «Пенная вечеринка» и «Больничные листы». В рамках первого было необходимо определить по видео скорость потока пены с металлом и других параметров флотации для оптимизации работы оператора на производстве. Мы же, во втором треке, создавали модель предсказания ухода на больничный сотрудников в одном из производственных цехов Норникеля с использованием обезличенных данных.
— То есть FEDOT можно использовать и в сфере Digital Healthcare?
— Конечно, это универсальное решение. Наш фреймворк позволяет работать с данными, полученными из разных источников, будь то изображения, текст или таблицы Excel. Таким образом, главной проблемой становится постановка задачи с точки зрения машинного обучения. В рамках хакатона Норникеля, благодаря FEDOT, нам удалось получить итоговое решение в виде комбинации моделей машинного обучения, предназначенных для задач регрессии и прогнозирования временных рядов.
— То есть FEDOT способен помочь участникам любого хакатона?
— FEDOT — как хороший швейцарский нож: пригодиться может везде, но не везде он будет одинаково эффективен. Упомянутые выше соревнования являются индустриальными хакатонами. Они не просто опираются на реальные бизнес-кейсы, но и требуют особого подхода.
Для участия во многих Data Science соревнованиях на Kaggle важны не столько оригинальность решения или подготовленность самих участников, сколько их техническая подкованность. В каком-то смысле возможности участников не совсем равны. В индустриальных хакатонах учитывается гораздо больше факторов. Важно выбрать правильный подход, найти лучшие модели, правильно обработать данные, а они иногда оставляют желать лучшего… Нужно презентовать полученные результаты и защитить выбранный подход. Поэтому лидерборды регулярно меняются. Например, во время Emergency DataHack команда DataMotion неожиданно, но совершенно заслуженно перескочила с третьего на второе место.
— Анна, вы возглавляете программу «Цифровые Геотехнологии» в магистратуре Университета ИТМО. Расскажите, пожалуйста, почему вы считаете участие в хакатонах важным для ваших студентов?
— Мы абсолютно убеждены на Факультете цифровых трансформаций (ФЦТ), что обучение в сфере Data Science не может проходить в отрыве от решения реальных задач. Поэтому с самого начала магистратуры мы стараемся вовлекать студентов в научную работу и проекты, которые реализуются по заказу и вместе с индустриальными партнерами НЦКР.
Для студентов участие в хакатонах — это отличная возможность попробовать свои силы в работе с реальными данными, в решении настоящих бизнес-задач, а также научиться работать в команде. Иногда задачи, решаемые на хакатонах, становятся стартовой точкой для научных поисков и исследований, основой для написания научных статей и выбора направления для дипломной работы. Также важным и приятным для студентов бонусом является наличие существенных призовых фондов в большинстве соревнований. То есть, помимо углубления собственных навыков по анализу данных и моделированию, студенты получают возможность монетизировать свой успех. И это здорово.
— Планируете ли вы как-то интегрировать эту деятельность в образовательный процесс или предполагается, что студенты должны самоорганизоваться и участвовать в понравившихся хакатонах?
— Самоорганизация студентов — это всегда хорошо, но мы рассчитываем сделать это своеобразным факультативом. То есть ребята будут иметь возможность пройти программу тренировок под руководством опытного наставника. Мы уже сейчас начинаем прорабатывать такую программу и планируем включить в нее не только практические занятия, но теоретические, на которых будем разбирать, как работают успешные алгоритмы машинного обучения, о которых не говорили в рамках магистерских курсов. Я считаю, что, тренируясь в хакатонной команде, студенты приобретут ценный личный опыт, научатся применять научные подходы, проводить комплексный анализ различных вариантов решения, а также обосновывать и защищать свой выбор.
— Со студентами, в целом, понятно. При этом сейчас в команде участвуют не только студенты, но и опытные научные сотрудники вашей лаборатории. Будете ли вы дальше поддерживать своих сотрудников в стремлении участвовать в хакатонах?
— Да, однозначно буду. Я считаю, что это важно по нескольким причинам. Во-первых, опыт участия в подобных соревнованиях очень важен для команды разработчиков FEDOT, так как помогает генерировать новые идеи для его развития. Во-вторых, часто хакатоны предоставляют доступ к интересным данным и задачам, опыт решения которых обогащает наши компетенции. Ну и наконец, мы сами иногда организуем соревнования по машинному обучению (и планируем расширять эту деятельность в этом году), поэтому возможность анализировать «изнутри» опыт и практики от других организаторов является бесценной.
— Использование FEDOT в хакатонах доступно только студентам Факультета цифровых трансформаций и сотрудникам НЦКР Университета ИТМО?
— Нет, это опенсорсное решение. Кроме того, для тех, кому кажется, что осваивать FEDOT «в одиночку» непросто, мы запустили цикл публикаций на Хабре. Первая посвящена структурному обучению и тому, как AutoML помогает создавать модели композитного ИИ. Вторая — прогнозированию временных рядов с помощью AutoML. Также все желающие могут принять участие непосредственно в разработке фреймворка на GitHub. Там же можно подробнее прочитать об особенностях работы с ним и с AutoML в целом.
— Илья, какие у вас планы по участию в хакатонах в обозримом будущем?
— У нас нет четкого графика участия в соревнованиях. Да это и невозможно. Подобных мероприятий на рынке огромное количество, часто информация о них появляется непосредственно перед началом. Мы выбираем те, что кажутся интересными нам или нашим студентам, собираем команду из ребят, готовых попробовать свои силы, и подаем заявки на участие.
Вообще, формат хакатонов в России сейчас крайне популярен. Совсем недавно заместитель председателя Правительства РФ Дмитрий Чернышенко заявил, что на проведение до 2024 года более 100 соревнований по технологиям искусственного интеллекта выделят 850 миллионов рублей, а это значит, что количество интересных хакатонов и призовые фонды будут расти, а с ними — мотивация и интерес участников и, соответственно, уровень команд. Нас это не может не радовать. Благодаря FEDOT у нас уже почти готова «стратегия победы».