Соцсети уже давно перестали быть просто местом общения между пользователями и способом рассказать о последних событиях в жизни. Анализ данных из Twitter, Facebook, Instagram, «ВКонтакте» и других социальных сетей создает серьезный задел для исследований. Какие места являются наиболее популярными, чем обусловлено то или иное поведение пользователя или группы людей, почему в одних городах жители предпочитают отдыхать в парках, а в других — в ночных клубах и ресторанах? Можно ли по совокупности больших данных — разрозненной информации, которую пользователь оставляет о себе в открытом доступе – предсказать то, что ему действительно понадобится в будущем, причем сделать эту систему точнее существующих аналогов таких, как Expedia, Trip Advisor и Foursquare?
Поиском ответа на последний вопрос занялась международная группа ученых из Национального университета Сингапура и Университета ИТМО. Исследователи разработали новую систему, которая позволяет более эффективно и персонифицированно подходить к процессу рекомендации пользователям мест для посещения на основе данных из социальных сетей. В ее основе — построение сразу нескольких более сложных моделей, основанных на разных типах данных, которые были получены из нескольких источников.
В отличие от других научных групп, преимущественно анализирующих контент из одной соцсети, рекомендательная система, разработанная исследователями из Сингапура и Петербурга, основана на перекрестном анализе информации, полученной из трех социальных сетей — Instagram, Twitter и Foursquare. Как показывает статистика, сегодня молодые люди пользуются в среднем тремя соцсетями, кроме того, именно эта «классическая тройка» предоставляет ученым ярко выраженный и сильно отличающийся контент, подчеркивает один из авторов работы Андрей Фильченков, доцент кафедры компьютерных технологий Университета ИТМО и руководитель группы машинного обучения международной научной лаборатории «Компьютерные технологии».
«Мы взяли именно эти три социальные сети как три наиболее специфицированные, с ярко выраженным и сильно отличающимся контентом. Instagram — это преимущественно история про фото, Twitter — про текст, хотя пользователи тоже постят туда фото, а Foursquare — это про довольно сложную категорию данных, позволяющих отследить перемещение пользователя. Это история про те самые venue (место встречи – прим. ред.), которые мы рекомендовали, — рассказывает Андрей Фильченков. — Безусловно, удобней строить исследования на основе одной социальной сети, но реальность более сложна и многопланова. В настоящее время опубликовано мало научных работ, где, как у нас, учитывают сразу несколько моделей поиска по социальным сетям. Однако тема уже давно находится на повестке дня как в академическом сообщества, так и в индустрии. Мы же, в свою очередь, пытаемся формировать интерес к многомодальным и многоисточниковым моделям».
Исследователи использовали при построении моделей информацию по пользователям, у которых есть профили хотя бы в двух из трех соцсетей. Ученые из Сингапура, авторы работы Александр Фарсеев и профессор Тат-Сенг Чуа (Tat-Seng Chua), собрали массив данных по пользователям, живущим в Нью-Йорке, Сингапуре и Лондоне. Этот «датасет» впоследствии был использован для тренировки и тестирования рекомендательной системы в различных географических точках земного шара.
Как отмечают авторы, данные пользователей именно из этих городов объединены, пожалуй, только по языковому признаку и урбанистической развитости. В остальном же контент предоставляет довольно репрезентативные результаты: города расположены на разных континентах, их жители являются приверженцами разных традиций.
Ранее похожий подход группа исследователей из Университета ИТМО и Национального университета Сингапура применила в другой работе. Студентка Университета ИТМО Ксения Бурая и ее коллеги научили алгоритм предсказывать семейное положение пользователей c точностью до 86%, используя данные из трех соцсетей. Исследователи, в частности, протестировали алгоритм на Твиттер-аккаунте Дональда Трампа. По словам ученых, в будущем эти результаты помогут составлять психологический портрет человека.
В этом исследовании его авторы представили более сложные модели, учитывающие анализ как индивидуального поведения пользователей, так и данные по сообществам, полученные из трех социальных сетей. Результатом стало построение более сложных перекрестных моделей, позволяющих рекомендовать пользователям места для посещения более эффективно.
«Мы учитываем разные аспекты. Мы интегрируем данные как по сообществам, так и по персональному поведению. Получается своего рода голографическая структура пользователя, — объясняет Андрей Фильченков. — Мы показали, что если брать данные из разных социальных сетей, из многих источников, и если учитывать как информацию по поведению человека, так и информацию о поведении других наиболее похожих на него пользователей соцсетей, то на основе этих данных получается создавать рекомендации заметно более высокого качества, чем если делать это, следуя известным на сегодняшний день подходам к построению рекомендательных систем. При этом схожесть пользователей между собой определяется их попаданием в автоматически выявленные кластеры на многослойном графе, построенном на данных из нескольких социальных сетей одновременно. Это тоже одна из задач, которая решается в исследовании».
Решение выглядит как реализация задачи обучения с учителем — зная, какие места пользователь посещал в прошлом, а также его визуальные и текстовые предпочтения, рекомендательная система советует места, которые будут ему интересны в будущем. К примеру, система «видит», что человек решил заняться своим здоровьем, стал загружать фотографии с пробежек в Instagram, а также агитировать друзей заниматься спортом в Twitter, поэтому в будущем она сможет предложить ему на выбор тренажерный зал или другие заведения, отвечающие его потребностям. Рекомендация строится автоматически на анализе связей между активностью пользователя в трех социальных сетях в последнее время и на том, на кого из пользователей он в некотором смысле похож, добавляет Андрей Фильченков.
Система также может быть использована на практике в различных сервисах и приложениях для туристической сферы.
«Некоторые идеи из статьи были внедрены в облачную систему анализа больших данных из социальных сетей, разрабатываемую стартапом из Сингапура "SoMin" (сокращение от “Social Miners”). Основной областью деятельности компании является анализ мультимодальных данных из множества социальных сетей для оптимизации работы сервисов в области электронного маркетинга, туризма и рекламы в социальных сетях», — пояснил соавтор статьи Александр Фарсеев.
Кроме того, в будущем исследователи намерены продолжить работу над улучшением рекомендательной системы. Помимо улучшения математических моделей как таковых и интеграции в систему новых данных, ученые могут также более детально проанализировать непосредственно объекты, которые представляют интерес для пользователя.
«Мы планируем добавить информацию о сообществах (группах) пользователей в социальных сетях, что позволит лучше определять интересы пользователей и, соответственно, производить более персонализированную рекомендацию», — отмечает соавтор статьи Иван Самборский.
«Пока извлечение семантики объектов, которые мы рекомендуем, не связано с тем, как пользователь к ним относится. В дальнейшем, анализируя дополнительные данные, например, ревью тех людей, которые побывали в этих местах, можно строить модели, которые также так или иначе будут улучшать качества рекомендательной системы и дадут нам возможность ранжировать места внутри категорий», — заключает Андрей Фильченков.