Проект RENOIR: справиться с хаосом пользовательских данных
Согласно прогнозам IDC, если в 2018 году общий объем созданных данных составлял 33ZB, то к 2025 году он вырастет до 175ZB. При этом основными движущими факторами роста станут данные, собираемые с развлекательных платформ, устройств, подключенных к интернету, инструментов повышения производительности и метаданных. Все это крайне важно для аналитики и контекстуализации информации.
Цель, которую ставит перед собой европейский проект RENOIR, — создание новых механизмов обработки социальной информации. Участники консорциума, в который входит более 10 различных институтов, лабораторий и организаций, занимаются реконструкцией динамики распространения информации в социальных сетях. Сюда входит, например, распространение информации в Twitter или Facebook, в том числе слухов, а также динамика новостей и их тематик во времени.
Проект основывается на трех основных принципах: сбор данных, интеллектуальный анализ данных / машинное обучение и моделирование сложных систем. Конкретные проблемы, которые решаются участниками консорциума, включают анализ правил и прогнозирование динамики распространения информации по различным темам в СМИ, поиск источников информации и раскрытие скрытых информационных каналов. Такая работа в том числе открывает возможности для бизнеса в доступе к инновационным методам и инструментам анализа информации, — уточняют авторы проекта.
Проект RENOIR реализуется в рамках гранта ЕС «Горизонт 2020» по программе «Мероприятия Марии Склодовской-Кюри. Обмен научными и инновационными кадрами» факультета физики Варшавского технологического университета. В рамках проекта сотрудничают лаборатории и университеты нескольких стран.
Сегодня над проектом работают четыре основных партнера: Варшавский технологический университет (Польша), Вроцлавский технический университет (Польша), Институт Йозефа Стефана (Словения) и Словенское агентство печати STA, а также 11 других партнеров, среди которых Стэнфордский университет, Калифорнийский университет и Университет ИТМО.
Одна из особенностей проекта заключается в уровне кооперации между участниками: партнеры проекта регулярно посещают вузы и компании-партнеры с целью обмена опытом. Всего проект разделен на пять уровней, на которых происходит обмен знаниями и инновациями в области инфраструктуры данных, создание инновационных решений в области обработки и их анализа, обмен знаниями и инновациями в области интеллектуального анализа данных и машинного обучения для реверс-инжиниринга наблюдаемых информационных процессов и другое.
Работа Джоанны Торуниевска в Университете ИТМО
В рамках работы над проектом в Университет ИТМО приехала аспирантка факультета физики Варшавского технологического университета Джоанна Торуниевска. В Польше она работает преимущественно с социальными данными и занимается моделированием сложных систем с помощью коэволюционных алгоритмов.
«Коэволюционная модель означает, что мы можем менять связи и состояния в конкретной сети. В частности, сейчас я работаю над коэволюционной q-voter моделью. Это значит, что у нас есть сеть и мы можем представить всех известных агентов сети, которые имеют положительное или отрицательное мнение о чем угодно. И эти агенты могут менять или свое мнение (в сети меняется состояние агента/вершины), или друзей, которые это мнение с ними не разделяют (другими словами, связи)», — объясняет исследователь.
В качестве примера Джоанна приводит такую ситуацию: представьте, что у вас есть группа людей, как-либо связанных между собой. Кому-то из них нравятся зеленые столы, а кому-то — желтые. Эти группы людей могут встретиться и обсудить свои предпочтения, а после каждый конкретный человек может решить, стоит ли изменить свое мнение. Например, если участники считают, что дружба важнее собственных предпочтений, они могут поменять свое мнение, но сохранить при этом друзей. В ином же случае, те, кто не готов изменить свое мнение, скорее, разорвут связи с теми, кто не разделяет их предпочтений, и займутся поиском единомышленников.
Таким образом, в q-voter модели есть параметр, который показывает исход ситуации: если параметр высок, участник разрывает связи и находит того, кто разделяет такое же мнение, если низок — человек склонен сохранить дружеские связи и изменить свое мнение. Это важный параметр, благодаря которому исследователи могут определить, как ведет себя сообщество в целом, как в его пределах распространяются мнения и меняются социальные связи.
«Мы можем смоделировать процесс распространения мнений. Для того, чтобы проверить, как меняются те или иные свойства системы — например, сколько раз люди меняют свои мнения, — необходимо провести такое моделирование для большой сети, — говорит Джоанна Торуниевска. — Однако моделирование в этой ситуации в разумные сроки может быть выполнено только на очень хорошем оборудовании — на многопроцессорном кластере. Именно поэтому я обратилась к специалистам Университета ИТМО, потому что они действительно обладают большими компетенциями в области высокопроизводительных вычислений. Здесь, в Университете ИТМО, есть возможность работать с такими системами, в том числе проводить параллельные вычисления, причем намного быстрее. Во время визита я занималась оптимизацией времени выполнения кода, чтобы в будущем иметь возможность генерировать результаты в гораздо более разумное время».
Почему работать с социальными данными непросто
Джоанна работает в рамках проекта RENOIR несколько лет и уже выполнила ряд исследований. Главная задача, которую ставят перед собой участники проекта, — понять процесс распространения информации. Например, если исследователи обладают большим количеством данных из социальных медиа, они могут изучить, какие методы и процессы важны для распространения информации, понять, почему какая-то информация становится популярной, а какая-то — нет, благодаря этому можно выработать также и методы распространения важной информации. Кроме того, можно найти ресурсы, которые влияют на дезинформацию, и понять, какая информация является подлинной, а какая нет, говорит она. Одна из очевидных перспектив применения такого рода исследований — маркетинг, многие компании уже давно заинтересованы в инструментах, которые помогут им в продвижении информации.
Однако есть и ряд проблем, которые осложняют работу с социальными данными. В первую очередь, социальные данные — это огромный пласт информации, их очень много. И это, в свою очередь, требует наличия действительно хорошего оборудования, которое позволит производить высокопроизводительные вычисления.
Кроме того, по словам Джоанны, работая с таким количеством данных, исследователи должны решить, какие из них наиболее важны, и выбрать именно те данные, которые в итоге позволят получить результат, отвечающий поставленной задаче.
«Сейчас мы пытаемся понять как можно больше как о самой модели, так и о получаемых результатах. В частности, в рамках проекта RENOIR мы взаимодействуем с социологами, которые также консультируют нас в нашей работе и могут проверить результаты», — комментирует Джоанна.
Перспективы
По итогам работы в Университете ИТМО она планирует получить конкретные результаты моделирования, которые помогут понять, как в целом происходят процессы в системе.
«То, над чем я работаю, — это лишь одна часть большой проблемы. И я уверена, что специалисты Университета ИТМО обладают компетенциями, которые позволят решать совместно такие проблемы. Я надеюсь, что в перспективе мы продолжим сотрудничество, — комментирует Джоанна Торуниевска. — Социальные сети предоставляют нам огромное количество данных, поэтому мы можем сделать много исследований, чтобы понять, как сообщества ведут себя. Конечно, можно делать поправку на то, что это поведение в социальных сетях, а не в реальной жизни, но они, как правило, все равно сильно связаны друг с другом. Раньше у нас не было столько возможностей, чтобы изучать поведение людей».