Всероссийский конкурс «Открытые данные Российской Федерации» — состязание, организованное Открытым правительством в партнерстве с Минэкономразвития. Конкурс проводится уже в третий раз. В оргкомитете всероссийских соревнований представлены ведущие федеральные министерства, службы и агентства, представители государственных институтов развития, венчурных инвесторов и крупных инновационных компаний, сообщества data-экспертов и социально ориентированных некоммерческих организаций.
Главная задача конкурса — выстроить коммуникацию между обладателями государственных информационных ресурсов с потенциальными потребителями открытых данных, определить их информационные потребности, тенденции развития современных цифровых сервисов, а также сформировать видение перспективных направлений развития государственной информационной политики.
Сегодня органы государственной власти страны публикуют большое количество открытых данных, однако, чтобы использовать их наиболее эффективным образом, специалистам предстоит решить немало методических и практических проблем, комментирует Дмитрий Муромцев, заведующий кафедрой информатики и прикладной математики, руководитель международной лаборатории «Интеллектуальные методы обработки информации и семантические технологии» Университета ИТМО, член жюри хакатона по открытым данным. Например, такими методическими вопросами могут быть задачи, связанные со способом подготовки данных к публикации (к примеру, нужно ли проводить предобработку этих данных или лучше просто произвести их выгрузку из информационных систем), а также системой стандартизации данных.
В рамках Всероссийского конкурса «Открытые данные Российской Федерации» в разных регионах страны уже состоялись отдельные состязания. В минувшие выходные хакатон по открытым данным, организованный Открытым правительством, Университетом ИТМО и Институтом проблем правоприменения при Европейском университете, прошел и в Петербурге. Экспертами состязаний стали специалисты в области открытых данных — представители Фонда «Открытое правительство», специалисты и научные сотрудники Университета ИТМО и Института проблем правоприменения при Европейском университете в Санкт-Петербурге, руководители профильных управлений государственных учреждений.
Чтобы поучаствовать в хакатоне, необходимо было прийти либо уже с готовой командой, либо зарегистрироваться индивидуально. Главное условие: в составе команды должно быть от трех до пяти человек. Всего за главный приз боролись пять команд, одна из которых сложилась прямо на хакатоне. В соревнованиях приняли участие как студенты, так и выпускники вузов Петербурга и Москвы — Университета ИТМО, Академического университета, МФТИ, МГТУ имени Баумана и других. На протяжении двух дней командам предстояло найти и предоставить лучшее решение творческого задания.
Информация налоговой, ПФР и других ведомств: к каким результатам может привести анализ открытых данных?
Задание хакатона предполагало поиск практических решений для задач, которые уже стоят перед рядом российских ведомств. Еще в 2016 году в России была заявлена реформа контрольно-надзорной деятельности государства (контроль-надзор.рф). Сейчас в ней участвует 16 ведомств. Одно из направлений в ее разработке – автоматизация надзорной деятельности в отношении бизнеса и организаций. А одна из основных идей состоит в переходе от системы «ковровых» (сплошных) проверок к риск-ориентированному подходу.
Зачем это нужно? Дело в том, что при таком подходе форма, продолжительность, а также периодичность проверок зависит от категории риска или класса опасности объекта (он определяется по масштабу потенциального вреда и вероятности наступления негативных событий). Главная цель новой системы — оптимизировать проверки предприятий надзорными органами, в частности, сосредоточиться на объектах средней и высокой опасности, исключив из плановых проверок объекты с минимальными рисками.
Но как решить эту задачу технически? Предполагается, что в этом может помочь машинное обучение. Перед началом хакатона его участники получили массив данных, включающий более 60 тысяч объектов, заявленных к проверке в 2018 году в 25 регионах страны. Задачей команд было научиться на этой тренировочной выборке, во-первых, предсказывать категорию риска предприятия для тестовой выборки, и во-вторых, понять и объяснить жюри аномалии и закономерности в назначении категорий.
«Для хакатона было специально разработано сложное аналитическое задание, которое, предположительно, может быть решено с помощью технологии машинного обучения на основе открытых данных. Один из главных партнеров, Институт проблем правоприменения Европейского университета, на основе данных Роструда подготовил выгрузки и примеры данных. Но, согласно гипотезе, их недостаточно, и эти данные необходимо было также комбинировать с открытыми данными из других источников, реестров», — рассказывает Дмитрий Муромцев.
Правда ли, что детским лагерям назначают ту же категорию риска, что и атомным электростанциям? Какие регионы и ведомства вдумчиво подходят к определению категорий риска? И почему проверки предприятий в одних регионах проходят совсем по-другому, нежели в соседних областях? Чтобы ответить на эти вопросы и на основе анализа данных найти другие закономерности, участникам предстояло не только использовать начальный датасет, но и, изучая параллельно предметную область, продумать, понять, какая дополнительная информация позволит достичь лучшего результата.
«Нам пришлось изучить много дополнительной информации, которая относится к предметной области, зачастую приходилось распутывать существующие многочисленные несоответствия, которые встречаются на ресурсах органов государственной власти. В ходе работы мы пробовали различные методы машинного обучения, нам было интересно использовать алгоритмы и в итоге прийти к пониманию, какие результаты можно получить на выходе. Что интересно, мы проверяли много вариантов решений, но сработало именно то, что не было сильно мудреным», — говорят участники команды Академического университета.
«На входе мы получили большое количество данных об организациях, всевозможные формальные коды, связанные с адресом регистрации, кодами категории налогоплательщика, по которым можно теоретически подгрузить другую информацию извне. Мы пытались обогатить эти данные более значимой информацией, полученной из внешних источников. Это оказалось достаточно сложной задачей, но в итоге это показало нам, что в теме открытых и связанных данных еще есть куда расти, — рассказывает Илья Воронцов, участник хакатона из московской команды, выпускник МФТИ. — В итоге нам удалось увидеть некоторые закономерности. В частности, мы увидели, что риск проверки можно установить частично, исходя из объема контрактов в рамках госзакупок. Это не очень значимый признак, но определенную роль может сыграть».
Несмотря на то, что само задание было сформулировано предельно конкретно, помимо формальных задач, участникам хакатона необходимо было в целом понять и предложить технологию, позволяющую использовать периодически публикующиеся открытые данные для решения сложных аналитических задач, добавляет Дмитрий Муромцев. Он отмечает, что результаты, полученные с помощью использования методов машинного обучения, и интересные закономерности в перспективе могут помочь в оптимизации работы ряда ведомств.
«Поиск интересных связок между различными источниками данных может повлечь за собой выработку рекомендаций, которые смогут помочь наладить взаимодействие между несколькими источниками. Например, такими источниками могут быть два федеральных органа государственной власти. Если методика продемонстрирует высокую результативность, то эти алгоритмы машинного обучения могут быть включены в аналитические системы соответствующих ведомств, которые впоследствии смогут, основываясь на этих данных, изменить подход к их работе, в данном случае контрольно-надзорной деятельности — например, оптимизировать количество проверок, сделать их более осмысленными, направить их на те зоны, где есть проблемы», — говорит Дмитрий Муромцев.
Кроме того, как отмечают участники хакатона, двухдневная работа позволила выявить несколько проблем, которые пока мешают наиболее эффективным образом работать с открытыми данными. В частности, сегодня ресурсам органов государственной власти пока не хватает системности в предоставлении данных, из-за этого информацию зачастую приходится извлекать вручную. Нередко информация дублируется, и встречается несколько вариантов предоставления одних и тех же данных. Именно поэтому в перспективе необходимо ввести единые и понятные стандарты представления данных, что в будущем поможет не только облегчить саму работу по анализу данных, но и сократить издержки по конкретным задачам, сходятся во мнении представители команд.
На протяжении всей работы команды могли оценивать эффективность предложенной модели и отслеживать свое расположение на таблице результатов в онлайн-режиме. По итогам решения жюри, которое также учитывало объективные данные итоговой таблицы, победителем стала команда Академического университета, получившая главный приз — 100 тысяч рублей.