О чем расскажет ваш Instagram?
Данные, полученные из социальных сетей, вот уже несколько последних лет дают ученым огромную почву для исследований. Сегодня только одним Instagram пользуются свыше 700 миллионов пользователей, причем последние 100 миллионов одна из самых популярных соцсетей мира набрала в течение последних четырех месяцев 2017 года. Более 400 миллионов пользователей выкладывают снимки в Instagram каждый день. Все это — фотографии, описание под ними, хэштеги, лайки и комментарии, а также геолокации — огромный объем данных. Но как структурировать этот хаос и действительно ли фото обеда пользователя или его селфи подчас может сказать о нем больше, чем сам он при первой встрече?
По фотографиям можно не только определить место съемки, но и понять эмоции автора, получить дополнительную информацию о предпочтениях пользователя, о его возрасте, социальном статусе и месте учебы или работы, рассказывает Ксения Мухина, инженер научно-исследовательского института наукоемких компьютерных технологий Университета ИТМО. Геолокации позволяют исследователям понять, какие места в городе и стране являются наиболее популярными, причем не только для туристов, но и для местных жителей.
«Что можно сделать с локациями? Самое простое — определить популярность мест. Любой турист, приезжающий в Петербург, ограничен каким-то узким перечнем локаций, которые рекомендуют путеводители. А это, как правило, 15-20 мест. Но что делать тем, кто не хочет пойти только на Дворцовую площадь или в Эрмитаж?» — отмечает Ксения Мухина.
Изучению этого вопроса была посвящена одна из недавних работ исследователей из Университета ИТМО. Ученые разработали компьютерный алгоритм, позволяющий по постам в Instagram найти музеи, кафе, улицы и парки, наиболее популярные именно среди местного населения. Сотрудники научно-исследовательского Института наукоемких компьютерных технологий (НИИ НКТ) Университета ИТМО нашли способ вычислить среди пользователей Instagram местных жителей, отделив их от туристов по сезонной активности в соцсети.
Кроме того, из анализа убрали так называемые дефолтные точки — к примеру, геометку «Санкт-Петербург», находяющуюся в Петропавловской крепости, или «Васильевский остров», указывая которую, пользователь автоматически попадет на Смоленское кладбище.
Разграничив пользователей по категориям «турист» и «местный житель», а также исключив из анализа данных дефолтные точки, исследователи составили две карты наиболее популярных мест для обеих категорий. И если первая фактически повторяла маршруты из многочисленных туристических путеводителей, то вторая предоставляла действительно небанальную инсайдерскую информацию от «местных». Здесь, как отмечает Ксения Мухина, сразу выделились все креативные пространства, о многих из которых знают далеко не все туристы. Появились на карте популярных мест среди жителей города и многочисленные парки, отдаленные от центра города и тоже не популярные у приезжих. Сегодня созданный алгоритм уже умеет автоматически распределять популярные места по пяти категориям: театры и музеи, рестораны и бары, мосты и улицы, парки, другое.
Мониторинг социальных сетей поможет определить не только самые популярные места, но и провести, своего рода, эмоциональный анализ. Среди других работ специалистов Института наукоемких компьютерных технологий — анализ поведения пользователей на крупнейшем фестивале Петербурга VK Fest, а также исследование, проведенное по данным из Сочи: первый запуск системы в детском лагере «Сириус» позволил создать инновационный стенд — по материалам пользователей соцсетей он показывал, какие эмоции вызывает у людей тот или иной объект или место на карте в пределах Сочи, Красной поляны и Адлера.
В будущем Ксения Мухина планирует продолжить работу с данными из социальных сетей. Сейчас она занимается исследованием наиболее ярких мероприятий на карте Петербурга. Но туристические сервисы — далеко не единственное приложение для анализа многочисленных данных из социальных сетей. Анализ больших данных, полученных из открытых источников, сегодня уже ложится в основу городского планирования, перестройки транспортных потоков.
Как связан реальный город и цифровое пространство?
Принято считать, что облик любого города формируется только из физических объектов, которые можно увидеть и потрогать здесь и сейчас. На протяжении десятилетий исследователи так называемой «городской морфологии» стремятся раскрыть, измерить и изучить это явление, чтобы лучше понять феномен эволюции городских пространств. Благодаря социальным медиа, исследователи получили доступ к огромному количеству полноценных данных, которые можно использовать для изучения взаимодействия между людьми, выявления наиболее важных городских событий и визуализации скрытой, на первый взгляд, городской карты.
«Всякий раз, когда мы постим фото в соцсети — мы всегда оставляем свой цифровой след в городе. Опираясь на индивидуальные эмоции и фотографии, исследователи могут восстановить образ города. Полученная карта рассказывает истории нашей жизни и о том, как мы взаимодействуем с городом. В свою очередь, исследователи составляют карту таких историй, чтобы определить, как улучшить жизненное пространство», — уверен Дамиано Черроне (Damiano Cerrone), сооснователь и контент-менеджер международной аналитической компании SPIN Unit.
Сам Дамиано вдохновился идеей цифрового пространства давно, еще в юности, первый раз увидев культовую научно-фантастическую мангу «Призрак в доспехах». Сегодня коллектив исследователей, где работает Дамиано, занимается анализом данных по заказу различных государственных структур и компаний.
Как подчеркивает исследователь, аналитики занимаются не просто ранжированием популярных мест, но и глубоким анализом данных, которые в совокупности могут сказать об экономической ситуации в городе в целом. Для этого компания использует открытые данные из нескольких социальных сетей — как из Instagram, который зачастую показывает ситуацию с положительной стороны, так и других, предоставляющих наиболее широкую и объективную картину.
Например, на специальных картах исследователи могут ранжировать по цвету места, где люди проводят свое свободное время и где работают или учатся. Расположение обеих групп рядом друг с другом может свидетельствовать о сбалансированном развитии города, говорит Дамиано Черроне. Можно ранжировать места и по другим категориям и исследовать социальную активность пользователей и привлекательность этих геолокаций. Простой пример: анализ соцсетей уже может показать, популярны ли парки или места отдыха в том или ином городе. И если нет — что следует изменить в планировании городского пространства, чтобы повысить посещаемость этих мест.
Такой анализ подходит для исследования совершенно различных объектов инфраструктуры. Кроме того, исследователи могут сгруппировать фото по времени и районам города. Это поможет понять, насколько туризм развит в той или иной его части.
Одним из проектов группы исследователей и Дамиано Черроне стала работа для КБ «Стрелка», где авторы проанализировали около 100 российских городов. Уже запущен сайт индекс-городов.рф с текущими результатами исследования по первым 90 городам. Главная цель Индекса качества городской среды — помочь городам определить болевые точки, чтобы дать старт обновлению городов и отслеживать эффективность программ их развития, которые сейчас воплощаются муниципалитетами РФ.
К чему приведет развитие Big Data в ближайшем будущем?
Но если анализ больших данных из социальных сетей позволяет определить текущую ситуацию, то предсказательное моделирование поможет построить цифровой образ еще не существующего города, заранее предупредив проблемы его развития. Этим занимаются в Институте наукоемких компьютерных технологий Университета ИТМО, специалисты которого разработали первую в России динамическую модель развития будущего города-спутника «Южный».
В математической системе рассчитаны процессы строительства города и его будущей социальной жизни. Модель показывает «Южный» с точностью до метра как в режиме реального времени, так и в ускоренной «перемотке». В модели учтено расположение транспортной и инженерной инфраструктур, зонирование территории (в том числе рекреационные зоны). Кроме того, для каждого из четырех горизонтов развития города (2021, 2026, 2031 и 2035 год) рассчитаны транспортная мобильность населения относительно всего Петербурга и на территории «Южного», а также экологические показатели: объемы выбросов вредных веществ от транспорта, тепловой остров территории застройки.
При этом динамика пассажиропотоков рассчитана с использованием технологий мультиагентного моделирования. Такой подход используется, когда необходимо смоделировать поведение нескольких агентов в среде, условия которой зависят от поведения самих агентов и изменений окружающей среды, в данном случае – городской территории.
Благодаря математическому моделированию можно не только получить красивую картинку того, что будет построено, но выбирать различные варианты развития будущего города в зависимости от изменяющихся условий. К примеру, что будет, если в том или ином районе города через пять лет появится новая станция метро? Модель учитывает гипотетические изменения и позволяет в динамике показать развитие инфраструктуры города в контексте меняющейся среды.
По словам Александра Бухановского, директора мегафакультета трансляционных информационных технологий и руководителя научно-исследовательского института наукоемких компьютерных технологий Университета ИТМО, именно такие подходы в будущем станут определяющими в работе специалистов, работающих в сфере трансляционных информационных технологий.
Город — постоянно изменяющаяся среда, и именно мобильность жителей определяет его дальнейшее развитие. Уже сегодня наметилась тенденция перехода от построения изолированных моделей и программных решений для отдельных задач к комплексным моделям для создания, своего рода, «виртуальных миров» в различных приближениях. В будущем, как отмечает Александр Бухановский, все это приведет к построению гибридных моделей, саморазвивающимся и самообучающимся в оперативном режиме, а также позволит отойти от «пассивного» восприятия больших данных к smart Big Data с гораздо более высоким КПД.
Среди других тенденций — необходимость появления безопасных систем реализации решений, выстроенных в логике Интернета вещей (вместо технологии советующих систем), а также цифровых паспортов сложных объектов, которые в будущем должны заместить классическую конструкторскую и эксплуатационную документацию.
На конференции «Парсек» выступили несколько десятков представителей ведущих вузов и профильных организаций – сотрудников лабораторий, технопарков, инновационных центров. На секции Университета ИТМО выступили также Андрей Фильченков, доцент кафедры компьютерных технологий вуза и руководитель группы машинного обучения международной научной лаборатории «Компьютерные технологии», который просто и доступно рассказал о глубоком машинном обучении, Илья Стахеев, креативный продюсер компании Luden.io, показавший, как геймдев уже меняет различные подходы в современном образовании, и Игорь Дятлов, 3D-художник, порассуждавший о том, почему социальные эксперименты, троллинг и чат-боты уже можно считать искусством.
Конференция «Парсек» проходит в рамках крупнейшего фестиваля о фантастике, кино и космосе «Старкон» уже в пятый раз. Фестиваль длится три дня. Все это время на «Старконе» будет работать и собственная площадка Университета ИТМО, расположившаяся в зоне «Наука» (подробнее о том, что можно увидеть и попробовать на площадке, читайте здесь).