Во время лекции вы рассказывали про теоретические модели, которые основаны на опыте прошлого, но не используют данные. Не могли бы вы объяснить, почему в науке о данных такие модели ценятся?
Идея проста. Сегодня Data Science и Big Data – это во многом тренд, и заинтересованность в этих научных областях объясняется не столько сутью проблемы, сколько желанием идти в ногу со временем, нам всегда хочется чего-то нового. Многие методы, которые мы используем сегодня, существовали уже 10 и 20 лет назад, просто сейчас мы присваиваем им новые имена. Все нейронные сети и деревья были придуманы в 1960-е годы XX века, но про них на время забыли, так как не было мощных компьютеров, чтобы их внедрить. При этом методы развивались. Относительно недавно появились достаточно мощные компьютеры с достаточным объемом памяти и быстротой процессоров, а также необходимое программное обеспечение, чтобы эти методы можно было реально использовать. Пример, который чаще всего используется, – система глубокого обучения Google, которая позволяет отличить фото кошек от собак. Чтобы так натренировать модели, нужно много данных, раньше таких баз данных просто не было, а сейчас есть огромные базы по фотографиям, поэтому сегодня наблюдается расцвет этих методик.
Методики основаны на том, что у нас есть данные, из которых нужно извлечь как можно больше информации. Проблема в том, что данные могут быть плохими, неточными и неверными. Также данные могут показать корреляцию, но по ним сложно установить причинно-следственные связи. Чтобы понять их, нужно осознать, какие механизмы произвели эти данные, что за ними кроется – для этого нужны модели. Модели «без данных» – это теоретические модели, которые вытекают не из новых конкретных данных, но из опыта и знаний (и данных), которые человечество приобрело раньше, и мы можем эти модели построить.
Классическая модель эпидемии (модель Кермака-МакКендрика) была построена в 1927 году и была теоретической, основанной на простых принципах: чем больше заболевших, тем больше людей они смогут заразить, чем больше людей, которые могут заболеть, тем больше заболевших. Это простые правила, на которых строится модель распространения заболеваний, но она не построена на каких-то конкретных данных, она теоретическая. Когда получаем новые данные, у нас уже есть модель, и мы можем связывать данные из многочисленных источников. В частности, мы используем агентное моделирование – один из видов теоретической модели.
Какое место среди методов, используемых в социальном моделировании (статистические модели, модели Маркова и модели системной динамики), занимает агентное моделирование?
Агентная модель – это, грубо говоря, компьютерная игра. Мы создаем виртуальное сообщество – моделируем каждого человека, который живет и действует согласно своим принципам. Эти правила поведения для каждого индивидуума свои. В свою очередь, агентами могут быть не только люди, но и целые организации и даже страны. Например, мы можем смоделировать мировую войну, и тогда страны будут агентами, у них будет своя стратегия, как победить друг друга.
Отличие научной модели от игры в том, что научная модель основана на научных принципах и конкретных данных, в то время как в играх много фантазии.
Агенты могут быть пассивными – пассивно передавать заболевания (один чихнул – другой заразился), но могут и производить активные действия – например, в зависимости от ситуации обороняться или нападать. Также агенты могут что-то создавать, самый простой пример – других агентов: два человека встречаются и производят третьего. Правила поведения моделируются в агентной модели, модель запускается, и мы смотрим, что получается из разных сценариев. Наиболее интересны ситуации, когда возникают какие-то сложные структуры из простых принципов, например, когда агенты, основываясь на простых поведенческих принципах, создают сложные экономические структуры, широко распространенные в мире.
Наверняка, у этого метода социального моделирования есть как преимущества, так и недостатки?..
Как ни странно, иногда агентная модель проще, чем модели обобщенные или популяционные, потому что очень часто, когда мы моделируем социальный процесс, можно определить простые правила, которые движут людьми. Как эти правила преобразуются в то, что мы наблюдаем на более высоком, популяционном уровне, не всегда понятно, но модели позволяют проверить, насколько наши догадки верны. Например, все люди хотят максимизировать свое счастье, и в зависимости от их способностей и стремлений они зарабатывают и тратят деньги, чтобы получить максимум пользы для себя. На высоком популяционном уровне мы видим, как работает экономика, сколько денег уходит на электричество, транспорт, покупку вещей и прочие категории. Вопрос в том, как желания и стремления людей трансформируются и переходят в те величины, которые мы наблюдаем на глобальном уровне.
Объяснить, почему пошел рост одного сектора экономики или другого бывает сложно, но определить изменение желаний людей проще: появились айфоны – появился интерес их покупать. Эти вещи более понятны, и на их основе можно выделить простые правила поведения людей. Подход агентного моделирования развивался, чтобы показать, что на основе каких-то простых правил можно понять, как те процессы, которые мы наблюдаем, развиваются в популяции и как их можно прогнозировать и изменять.
Очень интересно моделирование нерационального поведения. Например, никто не мечтает стать наркоманом и умереть от передозировки, но мы видим, как много людей становятся наркоманами. Нерациональность заключается в том, что человек знает, что будет сожалеть, но все равно делает.
Недостаток агентного моделирования в том, что нужно много данных, и данные эти специфические: данные социальных опросов и социальных экспериментов, потому что причинно-следственные связи описываются на этнографическом уровне, на уровне желания и поступка. Эти данные получить очень сложно. В это же время проблем с популяционными данными нет (статистика по рождаемости, закупкам, транспорту и другое), но есть проблема их толкования. Когда наблюдается рост или упадок, надо объяснить, почему это происходит и как предотвратить.
Расскажите на примере, как вы работаете с данными и созданием модели? К помощи каких специалистов вы прибегаете?
Чтобы выяснить паттерны поведения населения, мы работаем с этнографами. Например, они описывают, как наркоманы употребляют наркотики, на основании этого описания мы строим модель, на основании модели предлагаем посмотреть, какие данные есть по вспышкам заболеваемости. Так, в США есть вспышки заболеваемости ВИЧ, которые связаны с наркоманами нового поколения: они стали употреблять наркотики не очень давно и не успели выработать правила защиты в отличие от своих более опытных «коллег по цеху».
Мы предполагаем, что очаги вспышки заболеваемости будут там, где можем предсказать больше наркоманов. Больше наркоманов будет в тех областях, где плохая социальная ситуация –например, был завод, который кормил весь город, и его резко закрыли, люди остались без работы. При этом мы видим, что в этом месте возникает рост выписывания обезболивающих (все рецепты регистрируются), которые, как правило, содержат опиоиды. Скорее всего там возникнет эпидемия наркомании, так как в случае, если люди потребляют много обезболивающих, есть шанс, что некоторые из них перейдут на тяжелые наркотики. Если они перейдут на героин, то это внутривенные инъекции, а значит, люди начнут использовать шприцы, и велик шанс подхватить ВИЧ-инфекцию. Идет такая цепочка рассуждений, в которой есть связь данных и моделей, и на основе имитационного моделирования мы пытаемся выработать рекомендации по нормативам и практикам общественного здоровья, чтобы предотвратить катастрофу.
Вы работаете как с государственными заказами, так и с заказами из коммерческого сектора. Кем инициируются и спонсируются исследования по наркомании?
Большинство из них финансируется государством. Есть Департамент психического здоровья и наркомании (SAMHSA), который берет на себя финансовую составляющую вопроса. Они много финансируют исследований в этой области, также они докладывают Конгрессу США о необходимости провести то или иное исследование и выделить на него средства, а также на решение проблемы с помощью лечения или превентивных мер. Также есть Национальный институт здоровья (NIH), который заинтересован в научной стороне и предоставлении экспертизы. Центр по контролю за заболеваниями (CDC) также финансирует исследования, в большей степени связанные с уменьшением смертности от передозировок и нормативам по прописыванию обезболивающих лекарств.
Несколько лет назад решался вопрос баланса заболевания и поведенческих компонентов в наркомании. Например, рак – это болезнь, которая, как правило, не определяется поведением человека, а наркоман, в свою очередь, сознательно тратит деньги на наркотики, находит точку сбыта наркотиков, покупает шприц и колется. Все это считается сознательными шагами, на которые люди идут при моральном падении. Мы показывали, что изначально употребление наркотиков, курение и употребление алкоголя – чисто поведенческие аспекты, однако постепенно регулярное употребление наркотиков, как и никотина, вызывает необратимые процессы в мозгу. Наша совместная задача с вышеупомянутыми организациями – остановить процесс до того, как он станет необратимым. Когда человек уже наркоман, процесс сложно приостановить, это серьезное заболевание. После долгого (а у многих людей и недолгого) употребления «для удовольствия» мозг изменяет свои функции и желания смещаются в сторону большего употребления. Наркомания становится болезнью мозга. Поэтому задача исследователей – понять, какие использовать меры (например, медикаментозные препараты вместе с социальной поддержкой), чтобы избежать проблем в будущем. Описание поведения наркомана или алкоголика включает биологию, социальные процессы, медицину, образование, меры по уменьшению вреда и действия правоохранительных органов. В таких случаях нужно более комплексная модель, включающая все компоненты.
Ваше подразделение много работает над темой наркомании.
Меня очень интересует наркомания как тема. Я утверждаю, что любой математический аппарат может найти применение в этой области. На лекции мы говорили про искусственные нейронные сети, а в голове у человека – естественные, и то, как они работают, реагируют и адаптируются к наркотикам, крайне интересная тема. У меня есть друг и коллега Борис Гуткин (Ecole Normale Supérieure de Paris, Франция), совместно с которым мы выпустили несколько статей, посвященных математическим моделям того, что происходит в мозгу. Мы выясняли, как определенные участки мозга реагируют на курение (никотин – тоже наркотик), на попытки бросить курить, на большие вспышки курения, когда человек выкуривает одну сигарету за другой.
Поскольку нашими действиями руководит мозг, спрашивается, что же происходит в нем, что он требует именно такого поведения? Описание таких процессов очень интересно – мы проводим параллель между искусственными нейронными сетями, которые мы используем для описания больших данных, и природными нейронными сетями, которые описывают весь когнитивный процесс.
В ходе лекции вы упоминали про возможные решения социальных проблем, например, дополнительное финансирование в образование или производство конкретных медикаментов. По вашему опыту, к каким решениям склоняется государство после проведения исследований?
В большинстве случаев медикаментозное лечение считается наиболее распространенным решением, это момент политический и экономический. Пилюльку легче проконтролировать – лекарство выпускается под жестким контролем, исследование показывает, что лекарство работает, возможно, не на всех, но у него нет побочных явлений или их мало. Становится понятно, что в среднем лекарство принесет успех. Поэтому Федеральное агентство по контролю за медицинскими препаратами следит, чтобы лекарства выпускались согласно правилам, чтобы их прописывали и они помогали больным. При этом есть и альтернативные методы, они бывают популярны, но их сложно контролировать. Думаю, в этой области надо проводить больше исследований, потому что человек настолько сложный организм, что свести недуг к одному химикату – это сильное упрощение.
Превентивные меры важны – на них выделяются ресурсы. Однако сложно оценить качество этих мер. Если мы видим, что никто не заболевает, значит ли это, что болезнь ушла или меры сработали? Если мы не видим терактов, это хорошо работает полиция, или их просто нет?
Как устанавливается понимание – из-за чего конкретно происходит спад или рост конкретных явлений?
Для этого проводятся специальные исследования на региональном уровне. Допустим, существует превентивная программа обучения детей в школе, которая объясняет ученикам, что курение и наркомания – это плохо. Выбираются два региона, в которых достаток населения приблизительно одинаковый, социальная обстановка идентичная, также у регионов примерно одинаковый уровень курения. В одном регионе такую программу внедряют, а во втором ситуацию оставляют без изменений. Через некоторое время ученые видят разницу – это метод оценки программы. Если в результате программа показывает ожидаемые результаты, то ее внедряют в национальном масштабе.
В чем особенность работы с медицинскими данными? Даже в США, где доступ к данным считается открытым, есть проблемы с получением медицинских данных.
Самая большая проблема работы с медицинскими данными – защищенность пациента. Получить доступ к данным действительно сложно, даже если данные идентификационных полей удалены. В медицине не любят делиться данными. У нас есть ряд фармацевтических компаний, и каждая исследует свои данные. Они не хотят делиться данными с конкурентами или отдавать их третьему лицу. Иногда фармацевтические компании вступают в сотрудничество с государством, и тогда мы получаем интересные данные, которые можно исследовать.
Еще одна проблема для специалистов, весьма неочевидная, состоит в том, что медицинские данные анализировать гораздо проще, чем кажется. У меня есть много знакомых, которые окончили MIT, Стэнфордский университет, они разрабатывали сложные методы анализа данных, пошли работать в медицину и разочаровались, потому что в этой области простые модели работают так же хорошо, как сложные. Сложнейшие алгоритмы нужны больше в данных физических, связанных с погодой или сложными физическими явлениями. В медицине многие процессы – простые, и линейные модели работают неплохо. Основные проблемы связаны с качеством данных – их нужно чистить, проверять, перепроверять. К тому же есть параметры, которые сложно измерить точно, ведь человек – сложный организм.
К вам приезжал доцент Института дизайна и урбанистики Университета ИТМО Василий Леоненко, с которым вы работали над детализацией модели динамики гриппа для Петербурга. Около десяти лет назад вы работали над этой темой совместно с НИИ гриппа, почему работа над проектом продолжилась спустя столько времени?
Те данные, с которыми мы работали, предоставил НИИ гриппа. В этой организации есть потрясающие уникальные эпидемиологические данные, которых нет нигде в мире, и с ними было интересно поработать. Однако, чтобы получить эти данные, надо убедить институт, что данные не будут использоваться в ненаучных, политических или корыстных целях, а только для понимания распространения болезни и возможных методов предотвращения. Сотрудничество с Василием стало успешным, потому что данные предоставили ему как российскому ученому, и они использовались четко в рамках научного проекта, а Университет ИТМО стал важным связующим звеном между НИИ гриппа и RTI International.
Государство заинтересовано в проведении исследований в социальном поле, а как дело обстоит с коммерческими заказчиками?
Сегодня многие компании обязуются делать работу социальной значимости. Считается, что, если компания разбогатела за счет людей (например, Coca-Cola), то часть прибыли следует отдать на развитие общества. Мы много работаем с фармацевтическими компаниями над решением разных вопросов. Одна из тем, которую сейчас прорабатывают мои коллеги, – попытка понять, что случается с лекарственными препаратами после того, как их продают. Человеку прописали лекарство, воспользовавшись рецептом, он его покупает, однако затем связь теряется. Если рецепт еще можно отследить, то дальнейшие действия – нет, поэтому, как употребляют лекарство, непонятно. Есть вероятность, что люди могут по спекулятивной цене продавать какие-то медикаменты.
Также компаниям важно понимать, какие побочные эффекты возникают. Разумеется, побочные явления исследуются в клинических испытаниях, но выборка обычно небольшая. Когда люди начинают употреблять лекарство массово, побочных явлений может появиться больше, и они могут быть более серьезными.
С какими проблемами сегодня чаще всего работает RTI International?
Наркомания – одна из самых больших проблем. Также есть много проектов по лечению и предотвращению ВИЧ, рака, диабета, астмы, гриппа и других болезней. Большинство проектов RTI International лежат в области здравоохранения.