Как меняется поведение людей в социальных сетях и сами соцсети? Что личные страницы в Facebook и ВКонтакте могут рассказать о нас разработчикам ИИ? Какие данные из наших профилей в соцсетях используют для разработки различных алгоритмов и где они потом применяются? Рассказывает кандидат физико-математических наук, руководитель Лаборатории машинного обучения Университета ИТМО Андрей Фильченков.

Я в инстаграме ≠ Я в жизни

Соцсети открыли возможность делиться новостями из своей жизни с очень широким кругом людей. В самом начале казалось, что это так здорово — не пересказывать каждому одну и ту же историю, а один раз ее опубликовать и сразу получить от всех обратную реакцию. Но позже выяснилось, что не столь уж многим интересны твои искренние мысли и наблюдения. Распространилось понимание того, что окружающим нравятся больше образы, а не ты сам.

Чувствуется, что сейчас люди значительно меньше хотят демонстрировать публике, какие они настоящие. Вся выкладываемая в соцсетях информация проходит через определенные фильтры. Более того, сама репрезентация сильно смещена. Недаром появились мемы «я в инстаграме/я в жизни». Сегодня в соцсетях больше транслируются лишь «вершки» того, что происходит в действительности.

Для исследователей эта «неискренность» создает сложности. Например, на прошлых выборах президента в США ни один алгоритм не смог предсказать победу Дональда Трампа. Дело в том, что люди просто стеснялись высказывать ему поддержку в информационном поле, поэтому алгоритмы видели только потенциальные «голоса» в пользу Хиллари Клинтон. Из-за того, что человек подстраивается под определенные ожидания, мы получаем не соответствующие действительности данные. Если мы посмотрим на анализ выборки, то она будет смещена в сторону более позитивных, социально ожидаемых образов, что приводит к ошибкам в прогнозировании.

Страницы в соцсетях вместо резюме

Сейчас многие компании при приеме на работу просят в резюме добавлять ссылки на социальные сети. С одной стороны, это оправдано, ведь каждому работодателю перед интервью с кандидатом неплохо бы понимать, какими личными и профессиональными качествами обладает потенциальный сотрудник.

С другой — требовать обязательно указывать ссылки на страницы в соцсетях в резюме — весьма опрометчиво. Во-первых, не у всех есть социальные сети. Хотя, конечно, сегодня очень мало людей, у которых нет ни одного мессенджера или аккаунта в одной из социальных сетей. В современном мире без них крайне тяжело коммуницировать. И, наверно, люди 20-25 лет, которые совсем не пользуются соцсетями, воспринимаеются странно, с некоторым опасением. Но все же такие люди есть, и отсутствие страниц в соцсетях не позволяет сделать какие-то однозначные выводы о человеке.

Во-вторых, чем более распространенным будет это требование, тем больше люди будут пытаться подстроиться под него, еще сильнее искажая то, что они выкладывают в соцсети. Так мы рискуем получить просто разные клоны LinkedIn. Люди будут выкладывать только то, что от них будут ждать потенциальные работодатели. Или у каждого будет по несколько аккаунтов — как у подростков, у которых есть отдельные страницы для родителей и школьных друзей, где транслируются абсолютно разные образы. Плюс появится огромное число блогеров, которые будут рассказывать, какие фотографии выкладывать и как писать посты, чтобы тебя взяли на работу.

«Расшифровка» скрытой информации

Одна из разработок нашей лаборатории — алгоритмы, использующие данные из социальных сетей для определения информации, которая не представлена в явном виде. В частности, с помощью анализа всего, что публикуют пользователи в ВКонтакте, Facebook, Instagram, мы хорошо умеем «считывать» психологические характеристики, семейное положение и доход.

Вспомним Шерлока Холмса, который делал выводы о людях по некоторым деталям. Эти сложные логические заключения были вероятностными, и они не всегда попадали в цель. Если обратить внимание на примеры его дедуктивного метода, то вполне могло быть, что следы табака появились на одежде не от того, что человек курил, а от того, что он просто стоял там, где курили. Фактически мы делаем то же самое — вероятностное предсказание. Чем больше у нас данных — постов, фотографий, личных анкет, локаций и самих соцсетей, в которых представлен человек, — тем выше точность этого предсказания.

Это долгоиграющий проект, лежащий в основе стартапа Александра Фарсеева, SoMin.AI. Он особенно востребован для бизнеса. Мы живем в эпоху, когда отточены процессы производства и логистики, поэтому на первый план выходит таргетирование: кому можно продать тот или иной продукт. В этом мы и помогаем компаниям.

Например, мы можем с достаточно высокой точностью определять доход людей, что позволяет понять, скажем, кому лучше рекламировать Ford, а кому Lamborghini. Также наши алгоритмы используются работодателями. С их помощью они могут уже до личного интервью понимать, какими примерно личными и профессиональными качествами обладает кандидат.

Границы этичного применения ИИ

Нас как разработчиков ИИ часто спрашивают, не против ли мы того, что наши алгоритмы используются в тех или иных целях. И, в целом, в профессиональном сообществе сейчас активно обсуждается проблема этичного применения искусственного интеллекта, но это больше касается алгоритмов поддержки принятия решений. Например, алгоритма, который бы предсказывал, стоит брать на работу сотрудника или нет. Алгоритмы, которые мы разрабатываем — это всего лишь инструменты, измеряющие некоторые характеристики. Дальнейшая ответственность лежит на том, кто его использует.

Тут следует сказать, что у каждого свой взгляд на то, что такое этичное применение. Например, некоторые мои коллеги негативно относятся к тому, что наши инструменты используются для создания рекламы. Они убеждены, что реклама — это один из способов манипулирования и обмана. Я это мнение не разделяю. Ведь более таргетированные предложения не только помогают максимизировать прибыль компаний, но и приносят пользу самим потребителям товаров и услуг — они ограничивают от лишней информации, предлагая только то, что интересно и по карману целевой аудитории.

Приведу еще пример. Наше общество устроено так, что даже самые непредвзятые и лишенные гендерных предрассудков HR-специалисты в России вынуждены учитывать некоторые неоднозначные критерии при наборе сотрудников. Так, многие компании из-за особенностей трудового кодекса РФ в связке с культурными нормами опасаются, что женщины будут менее полезными сотрудниками в сравнении с мужчинами. В России принято считать, что с детьми должна сидеть именно женщина, да и декретный отпуск чаще берут мамы, чем отцы, что укрепляет стереотипы о гендерном различии. С точки зрения работодателей выгоднее нанимать сотрудника, который будет много работать и не уйдет в декретный отпуск, поэтому на разные должности чаще берут именно мужчин.

Конечно, работодатели и без наших алгоритмов в состоянии определить пол претендента, но предположим, что они будут использовать наши разработки именно для этих целей. В данном случае проблема будет не в компаниях, или том, что они используют наш инструмент и эти критерии для выбора будущих работников. Проблема именно в наших культурных нормах и стереотипах. Если что-то менять, то нужно начать с мышления, устаревших убеждений, политики принятия решений, закрепившихся в нашем обществе.

С какими сложностями сталкиваются разработчики ИИ

Помимо того, что не вся информация пользователей из их соцсетей соответствует действительности, есть еще ряд трудностей, которые стоит разрешить разработчикам ИИ.

Во-первых, в каждом источнике данные очень разной природы. Под каждые из них нужен отдельный алгоритм. Чем больше данных мы интегрируем, тем более сложными должны быть инструменты. Причем каждый алгоритм нужно придумать, обучить, разработать и протестировать. Нельзя просто взять его готовым «с полки».

Во-вторых, не всегда есть вся необходимая открыто прописанная информация, которая нужна для обучения алгоритмов под различные задачи. Приходится делать дополнительную работу. Например, чтобы предсказать, будет ли человек поддерживать того или иного политика или купит одежду определенного бренда, недостаточно просто собрать доступные данные. Нужно также придумать конкретную характеристику, на основе которой можно предсказать, за кого будут голосовать или что будут покупать, и только после этого обучать алгоритмы.

В-третьих, сам сбор данных из социальных сетей не так прост. Часто меняется форма представления информации и политика по отношению к тому, что можно скачивать, а что нет. Кроме того, постоянно меняется язык, на котором общаются люди: сленг, специальная лексика, использование символов. Меняются сами социальные сети и формы взаимодействия в них.

Например, когда только появился ВКонтакте, казалось, что поведение людей на этой площадке будет примерно всегда одним и тем же и что можно придумать модели, измерять их и использовать дальше. Но все оказалось по-другому. Если раньше во ВКонтакте люди довольно часто что-то постили на стену друг к другу, то сейчас такого не происходит. А люди, которые обсуждают политику, в какой-то момент ушли из ВКонтакте в Facebook. В одно время казалось, что Twitter умрет, но он живее всех живых, и, например, в нем «сидит» профессиональное сообщество машинного обучения.

Наконец, появляются мессенджеры вроде Telegram, которые постепенно приобретают свойства социальных сетей, создавая им конкуренцию. Данные из Telegram сложно считывать, потому что он закрытый и не предоставляет информацию, например, о том, кто на что подписан. В этом смысле наши светлые ожидания о неисчерпаемом потоке открытой информации, которую можно легко анализировать, не оправдываются.

Как разработать эффективный алгоритм

Социальные сети открывают большие возможности для разработчиков искусственного интеллекта. На основе анализа всего, что публикуют у себя на страницах пользователи ВКонтакте, Facebook и Instagram, разрабатываются как различные рекомендательные системы, так и алгоритмы для выявления дополнительной, скрытой информации: например, о психологических характеристиках, доходе и семейном положении конкретного человека.

Чтобы создавать эффективные инструменты, которые будут приносить пользу пользователям социальных сетей и бизнесу, разработчикам нужно пристально следить за всеми изменениями и уметь вовремя подстраиваться под новые ограничения. Со временем меняется поведение людей, язык, на котором они общаются; меняются и сами социальные сети.

Что касается этического применения ИИ, то здесь всегда важно помнить, что алгоритмы — это всего лишь инструменты, которые помогают обнародовать ту или иную информацию. Они «ни плохие», «ни хорошие». Ответственность за использование алгоритмов полностью лежит на тех, кто их применяет. Соответственно, стоит ставить вопрос не о том, как сделать тот или иной инструмент более этичным, а как сделать так, чтобы сами люди и разработчики мыслили более этично. Но перед этим, конечно, неплохо бы разобраться, а что вообще понимают под словом «этично».

К началу

Что могут рассказать личные страницы в соцсетях разработчикам искусственного интеллекта

Я в инстаграме ≠ Я в жизни

Страницы в соцсетях вместо резюме

«Расшифровка» скрытой информации

Границы этичного применения ИИ

С какими сложностями сталкиваются разработчики ИИ

Как разработать эффективный алгоритм

Элина Файзуллина

Андрей Фильченков

Похожие новости

Команда ИТМО вошла в «серебряную лигу» на турнире подразделения Google, которое борется с травлей в сети

Из робототехники ― в Data Science: аспирант ИТМО Ци Ян ― о том, как не бояться менять специализацию и заниматься тем, что нравится

Applied AI Challenge: опыт победителей онлайн-хакатона и новые возможности для участников