Технологическая революция последних десятилетий привела к широкому распространению цифровых технологий. Все больше и больше аспектов нашей жизнедеятельности осуществляются с их помощью, что приводит к созданию больших массивов данных. Городской трафик, потребление энергии, уровень шума, траектории движения такси и общественного транспорта, телефонные звонки, транзакции кредитных карт, подключения Wi-Fi и Bluetooth, обращения граждан, социальные сети — все это оставляет цифровой след в наши дни.
Сегодня эти данные находят самое активное применение в исследовании, планировании и управлении городами, делая концепцию умного города возможной как никогда. И это как раз та сфера, где новые технологии остро необходимы, ввиду взрывного роста сложности и связанной с этим уязвимости городских систем. С другой стороны, наряду с новыми возможностями, большие данные предъявляют и новые требования к технологиям их анализа, стимулируя развитие машинного обучения, искусственного интеллекта, сетевого анализа и других дисциплин.
Цифровые города
Дата-специалисты, эксперты по аналитическим данным, которые обладают техническими навыками для решения сложных задач, а также любопытством, которое помогает эти задачи ставить, работают в разных областях. С недавнего времени они стали активно работать с городской средой. Концепт последних лет: диджитализация городских систем. Речь идет об использовании аналитических подходов, которые могут сделать жизнь горожан комфортнее и безопаснее, а сам город более умным и устойчивым. Сегодня городская информатика базируется на трех китах: урбанизация (новые вызовы), диджитализация (новые решения), машинное обучение и искусственный интеллект (инструменты).
Процесс урбанизации привел к тому, что сегодня более 50 % мирового населения проживает в городах. Так было не всегда. В 19 веке в городах проживали только три процента населения. С некоторыми городами разительные изменения произошли даже не за 200 лет, а всего за 30. Например, Сингапур — один из наиболее развитых современных мегаполисов, в котором сосредоточены транспортные, финансовые и индустриальные узлы, еще 30 лет назад был заурядным тропическим городком.
Сегодня именно города становятся главными потребителями энергии (они ответственны за более чем 75% мирового потребления). Плотность населения, высокий уровень трафика, средоточие производств рождают новые вызовы для общества. Вместе с новыми вызовами появляются и новые решения — в этом помогают данные, которые современный мегаполис генерирует ежедневно.
Второй тренд — диджитализация. К 2003 году человечество создало 5 000 000 000 гигабайт информации. Сегодня столько же информации мы можем генерировать в течение одних-двух суток. Это происходит не потому, что люди стали умнее, а потому что многие процессы стали осуществляться с помощью цифровых технологий, и информация об этих процессах стала фиксироваться.
Сегодня многие города делают данные публичными, например, Нью-Йорк старается сделать все данные, не относящиеся к конфиденциальной и персональной информации, общедоступными. Исследователи в Нью-Йорке могут пользоваться данными общественного транспорта (служб такси, метро), данными о пешеходах и трафике на дорогах, данными о сборе отходов, об окружающей среде (погода, качество воздуха, уровень шума), данными о переписи населения США, данными социальных медиа, данными о преступлениях, продаже недвижимости.
Некоторые данные получить сложнее, но все же возможно. Среди них — анонимизированные данные мобильной связи, использования Wi-Fi сетей, статистика по транзакциям кредитных карт, анонимизированные истории болезней, которые могут быть получены от провайдеров при достижении соответствующих договоренностей, соблюдении определенных условиях и в установленных рамках применения.
Третий тренд — машинное обучение и искусственный интеллект. За последние 10 лет уровень финансирования стартапов, использующих искусственный интеллект и машинное обучение, вырос в несколько раз. Этот тренд хайповый и во многом переоценен публикой. Люди испытывают слишком много ожиданий, которые не всегда оправдываются с помощью новых инструментов, поэтому общество быстро разочаровывается. Сегодня есть несколько возможных применений искусственного интеллекта и машинного обучения для создания моделей, с помощью которых анализируются городские данные. При этом модели не должны быть сложными.
Проект HubCab — совместное использование такси
Услуги такси — жизненно важная часть городского транспорта и главный фактор, влияющий на пробки на дорогах и загрязнение воздуха. Совместное использование такси — возможный способ снизить негативное влияние транспорта на города, однако из-за дискомфорта (более длительного времени пути) этот способ передвижения пока не самый популярный. Специалисты работали с набором данных о миллионах поездок на такси в Нью-Йорке и показали, что общее количество поездок может быть сокращено на 40%. Это, в свою очередь, приведет к сокращениям стоимости услуг, трафика и выбросов.
Такое преимущество возможно с помощью раздельных тарифов и минимального дискомфорта для пассажиров, измеряемого как дополнительное время в пути до двух с половиной минут. В таком случае пассажиры более благосклонно относятся к совместному обслуживанию.
Как общины и инфраструктура влияют на различия мобильности в развивающихся и развитых регионах
Транспортные и коммуникационные сети — основа развитых стран. Развертывание такой инфраструктуры в развивающихся регионах может привести к экономическому и социальному процветанию. Использование населением этих сетей может многое рассказать исследователям о регионе. Например, использование коммуникационных и транспортных сетей может рассказать, как могут распространяться идеи и болезни или как можно наиболее эффективно расширить услуги здравоохранения и образования.
Исследования данных мобильных телефонов дали специалистам представление о многих аспектах мобильности человека. Однако эти исследования, как правило, сосредоточены на регионах с самым высоким охватом мобильной телефонной связи. Эти регионы обычно более стабильные, зрелые и развитые. Поэтому модели, разработанные на основе этих данных, являются отражением развитых регионов.
Примечательно, что высокоиндустриальные и богатые регионы составляют менее одной трети населения планеты, в то время как остальные две трети проживают в развивающихся и бедных регионах. Эти развивающиеся регионы сталкиваются с наиболее быстрыми демографическими и экономическими сдвигами во всем мире и остро нуждаются в таких моделях для информирования директивных органов, градостроителей и поставщиков услуг. До недавнего времени мало что было сделано для оценки приемлемости моделей промышленно-развитых регионов для использования только в развивающихся регионах.
Набор данных, с которым работали исследователи, был собран с вышек сотовой связи в Кот-Д'Ивуаре и выпущен для исследовательских целей, что говорит о том, что развивающиеся регионы тоже могут быть проанализированы. В дополнение к быстрой урбанизации Кот-Д'Ивуар может похвастаться богатым культурным и языковым разнообразием. Эти контрастные социальные взаимодействия дали исследователям возможность понять модели коммуникации и мобильности, а также потребности развивающейся страны на ключевых этапах ее развития.
Исследователи использовали контраст между данными о мобильности из Кот-Д'Ивуара и более промышленно развитой Португалией для того, чтобы понять, насколько модели мобильности людей, разработанные для промышленно-развитых регионов, подходят для только развивающихся регионов.
Во время исследования специалисты работали с вероятностью миграции, средним расстоянием миграции и региональным разделением. Чтобы лучше понять региональные разделы, исследователи использовали набор алгоритмов выявления сообществ. Применяя эти алгоритмы как в Кот-Д'Ивуаре, так и в Португалии, исследователи увидели удивительные различия в структуре сетей мобильности.
Например, официальные административные границы Кот-Д'Ивуара не были хорошо согласованы с обнаруженными общинами, в отличие от общин, обнаруженных в Португалии. Также ученые обнаружили, что сообщества, которые соответствовали племенному и культурному разделению региона, позволили значительно лучше моделировать мобильность, чем те, которые формируются административными границами.
ITMO.NEWS задал несколько вопросов спикеру о том, каким должен быть специалист, работающий в городской информатике, могут ли данные использоваться некорректно и как развивающиеся в новой научной области страны могут использовать опыт других стран.
Какие требования сегодня предъявляет научная область городская информатика специалистам (будь это дата-журналист или разработчик)? Должны ли соблюдаться этические аспекты, или акцент все же сделан на технической стороне — работе с данными?
Безусловно, это мультидисциплинарная область, и это отражено в структурном составе наших студентов. Например, у нас на курсе есть архитекторы, дизайнеры, также есть инженерные специалисты и люди с математическим профилем — все эти компетенции важны в работе с городскими данными. В городской информатике важно умение задавать правильные вопросы, которые чаще присущи людям прикладного профиля.
Разумеется, важны и технические способности, такие как анализ данных, обработка данных, статистические навыки и определенная научная честность. Так как нам важно добиться корректной интерпретации, готовность правильно интерпретировать свои результаты, не переоценивая их, необходима. Говорить о том, что все перечисленные навыки необходимы, чтобы заниматься городской информатикой, будет преувеличением, в процессе все познается. Однако надо быть готовым к тому, что всему предстоит научиться.
Знаете ли вы случаи, когда данные были использованы некорректно?
Есть проекты, в которых были найдены технические процессуальные ошибки, например, в модели Google Flu Trends. В рамках этого проекта компания Google обнаружила, что количество запросов о плохом самочувствии людей пропорционально тому, как распространяется эпидемия. Компания стала делать предсказывающую аналитику, выявляющую, когда и где распространится эпидемия. По самим запросам, в которых люди жалуются на самочувствие, представители компании видят, что эпидемия начинается в конкретных областях, но в это время врачи еще не знают о ней. Далее аналитика предсказывает, в какую сторону движется эпидемия, какие территории охватывает.
В течение первых двух лет модель работала хорошо, однако в 2009 году возникла первая серьезная проблема. Из-за тиражирования в СМИ информации о свином гриппе население стало искать информацию о болезни чаще обычного, и эпидемию переоценили во много раз, в то время как были известны только отдельные случаи заболевания. Интерес аудитории был подогрет настолько, что по запросам складывалось ощущение, что вся страна охвачена болезнью.
После того, как специалисты внесли корректировки в модель, через три года эти изменения привели к обратному эффекту — следующую эпидемию полностью пропустили, так как определенным запросам по гриппу дали меньший вес. Изменилась также сфера интересов, связанная с эпидемией, поэтому запросы формулировались иначе, теперь они были больше связаны с обычными эпидемия гриппа, поэтому эпидемия 2012 года осталась не замечена, и проект закрыли. Это яркий пример того, когда мы пытаемся переобучить модель, меняем параметры таким образом, чтобы она предсказывала нужное, но теряем экстраполяцию.
Поведение людей настолько изменчиво, что, если мы применяем определенную интерпретацию к одним событиям, мы не можем рассчитывать, что она сработает через пару лет. У таких моделей очень короткий жизненный цикл.
Вы используете какие-то методы обнаружения того, что модель перестала работать?
Предсказать, что рынок разворачивается и пора перезагружать модель — это очень важная задача, и мы пытаемся разработать подходы. У нас есть темпоральная сеть, которая позволяет увидеть, что некоторые процессы происходят не так, как два года назад, и это, в свою очередь, говорит о том, что модели, которые работали до сих пор, скоро работать перестанут. Скорее всего, обнаруживать изменения нужно с помощью anomaly detection (обнаружение аномалий при получении данных). При этом мы все еще не видим, что именно меняется, но изменения фиксируем.
Некоторые города делают данные публичными, но некоторые все-таки очень консервативны в этом смысле. Значит ли это, что города, которые не делают данные достоянием общественности, развиваются медленнее?
Развитие города — это сложный и небыстрый процесс. Если город отказался от публичности данных, это, возможно, ограничит его потенциал на ближайшие пять лет, но, скорее всего, он все равно позже проявится. Разумеется, не так быстро возникнут эффективные элементы умного города, ведь у людей нет ресурсов, чтобы модели проверять, поэтому специалисты будут создавать решения там, где данные есть.
Как сегодня формируется законодательство в области использования данных для развития города? Контролируется ли как-то процесс использования данных разными исследовательскими группами?
Сегодня на западе чаще всего используется case-based модель. Это означает, что директива приходит не от правительства, а из индустрии. Суд рассматривает конкретный случай и принимает решение, в контексте которого рассматриваются следующие случаи. Поскольку это новый тренд, даже ученые не знают всех сложностей, с которыми придется столкнуться.
Наверно, сейчас невозможно спроектировать правовой фреймфорк, который накроет все случаи, поэтому case-based модель кажется наиболее разумной. Законодательства в этой области сейчас или нет, или оно в зачаточном состоянии.
Правильным будет сказать, что быстрее меняется политика крупных компаний, а законодательство догоняет. Сначала компании отвергают те или иные практики, а потом законодательством закрепляется это решение. Сами компании выступают как флагманы этих трансформаций.
У России и стран СНГ есть преимущество: мы видим, как меняется ситуация там, где данные стали применяться раньше, и видим те сложности, с которыми уже столкнулись западные коллеги. Поэтому мы можем проанализировать и на законодательном уровне закрепить те или иные правила, используя опыт предыдущих ошибок.