О Media Research Group
Для начала расскажите, пожалуйста, о Media Research Group. Когда и зачем она была создана в Университете ИТМО и над какими задачами работает?
Media Research Group ― это исследовательская группа, входящая в лабораторию машинного обучения, которая, в свою очередь, является частью лаборатории «Компьютерные технологии» в Университете ИТМО. Наша группа была создана три года назад, мы занимаемся исследованиями в области использования машинного обучения для анализа данных из социальных сетей.
Это направление пришло в Россию из Сингапура и стало продолжением достаточно долгосрочного сотрудничества лаборатории машинного обучения с Национальным университетом Сингапура. У нас есть соглашение, туда ездило много студентов. В результате меня, я тогда работал в Сингапуре, пригласили в Россию заниматься анализом социальных сетей.
А сколько человек сейчас работает в группе?
Изначально нас было всего двое ― я и один PhD-студент. В последнее время мы стали немного больше, периодически в нашей работе участвовали несколько студентов, они писали магистерские работы. Теперь они выпустились и некоторые остались в лаборатории ― на данный момент нас пятеро: я, два PhD-студента, два магистранта.
Вообще, лаборатория машинного обучения делает крутую работу с точки зрения формирования команды. Я не всегда нахожусь в России, но знаю, что здесь одна из самых сплоченных лабораторий в ИТМО. Здесь много студентов, которые реально заинтересованы в исследованиях, а не в том, чтобы идти и зарабатывать в компании.
Это важно, потому что в России индустрия исследований, к сожалению, пока находится в зачаточном состоянии. Чем больше умов будет оставаться в лаборатории, тем выше шанс у страны быстро развиваться и выходить на мировой уровень ― в том числе в исследовании соцсетей. Моя же задача ― помочь в этом, чем я и мои коллеги занимаются последние три года.
Революция в digital marketing
Сейчас вы готовите статью для Habr о том, как искусственный интеллект изменил индустрию маркетинга. Если продолжать тему, как все-таки это произошло?
На самом деле сфера digital-маркетинга ― это такой «низко висящий фрукт» для технологий, связанных с искусственным интеллектом, то есть это ― одно из очевидных применений технологии машинного обучения к анализу соцсетей. Большинство digital-рекламы сейчас производится в соцсетях и поисковых движках. Все исследования, связанные с анализом данных из соцсетей, напрямую или косвенно применимы к digital-маркетингу.
В принципе у исследований данных соцсетей есть два основных направления: первое ― анализ населения на предмет интересов, заболеваний, то есть работы для public services и социальных наук; второе ― это как раз digital-маркетинг, связанный с улучшением продаж на основе детального понимания аудитории бренда и более качественного таргетирования рекламы. Есть, конечно, направления, связанные с HR, но они более узконаправленные.
И все же в чем искусственный интеллект помог совершить революцию?
Искусственный интеллект произвел революцию давно, раньше, чем о ней стали говорить. Вы увидите ее, если посмотрите системы таргетирования рекламы поисковых движков и социальных сетей по всему миру. У VK, Yandex, Google ― у всех основных игроков есть миллионы пользователей и каждый день идут миллиарды транзакций. Такую информацию усилиями человека, даже усилиями очень большой группы людей, обработать очень сложно. Чтобы информацию принимать, модерировать, чтобы ее использовать, необходимо было применять машинное обучение, а далее и более глубокие технологии искусственного интеллекта. Иначе было очень сложно с этим всем работать.
Таким образом, когда зародились соцсети и поисковые движки, когда появилась их бизнес-модель, связанная с продажей рекламы, появилась и технология искусственного интеллекта, которая позволяет всем этим управлять. Надо было управлять аукционами [по продаже рекламы], управлять таргетированием, понимать аудиторию, достучаться до нее в нужное время и с нужным продуктом.
В последнее время появился набор дополнительных сервисов, которые позволяют уже самим рекламным агентствам и брендам использовать технологии машинного обучения для настройки брендовых систем. Ведь в последние несколько лет сложилась система, когда тот же Google позволяет таргетировать миллионы слов и огромное количество интересов, но маркетологи не знают, как выбирать в этом многообразии. Поэтому появляется много платформ, которые балансируют эту систему, упрощая жизнь маркетологов.
Не секрет, что эти успехи пугают некоторых пользователей. Есть много шуток на тему паранойи, мол, тот или иной сервис за нами следит ― я сказал, что хочу чаю, и в ту же секунду на сайтах появляется реклама различных видов чая и сервисов доставки. Есть ли сейчас работы, направленные на то, чтобы сделать алгоритмы таргетирования рекламы менее назойливыми?
Facebook и Google тратят большие ресурсы, чтобы реклама была релевантной. Потому что если она таковой не будет таковой, компании потеряют свой основной ресурс ― пользователей социальных сетей. Вообще, тут есть три игрока ― пользователи, бренды и соцсети. Задача балансирования интересов этих трех игроков должна решиться за счет искусственного интеллекта.
Я думаю, паранойя связана с тем, что люди не понимают, что бесплатного ничего не бывает. Если что-то есть, то за это кто-то заплатил: либо налогоплательщик, если это «бесплатная» медицина, либо пользователи, которым показывают рекламу, если это контент в интернете. Когда пользователи начнут понимать, что сервисы, которые им предоставляются в соцсетях, оплачены рекламой, которую они смотрят, то вопрос паранойи отпадет. И все будут иметь выбор ― участвовать в социальных сетях или нет, пользоваться мобильным телефоном или не пользоваться, или отключать треккинг. Это будет выбор каждого.
Вы сказали, что баланс между интересами пользователей, рекламодателей и соцсетей может быть найден за счет искусственного интеллекта. Как он поможет в этом случае?
Я приведу пример Facebook ― компания сейчас усиленно борется с проблемой возникновения виртуальных личностей и виртуального фейк-контента, который генерируется роботами. Существует огромное количество людей и компаний, которые генерируют ботов, а они, в свою очередь, создают фейк-контент. Причем ботам не надо отдыхать, они работают 24 часа в сутки. И если создать достаточно большую сеть из них, то можно влиять на мнения людей в планетарном масштабе.
Чтобы противостоять этому, Facebook занимается созданием моделей, которые умеют отличать фейк-контент от настоящего. Это нужно для того, чтобы понять, какой контент запостили боты, есть ли какой-то тренд в его распространении, как боты взаимодействуют между собой. Поняв это, можно заблокировать всю цепочку и не позволить ей распространяться. Это интересная и очень сложная задача, ведь боты больше не постят один и тот же контент, они тренируются на сообщениях живых людей. Таким образом, и искусственный интеллект Facebook должен постоянно тренироваться, чтобы случайно не банить сообщения живых людей. Это невероятно сложно, ведь количество сообщений исчисляется миллионами в минуту.
Получается как с вирусами и антивирусами, постоянная гонка?
Да, примерно так. Только в нашей сфере.
«Холостяк» Трамп и фейк-блогер Майя
Расскажите, пожалуйста, над какими проектами работает непосредственно ваша исследовательская группа?
Facebook, Google и другие высокотехнологичные компании больше занимаются инженерными кейсами, основываясь на исследованиях ученых, в том числе на том, что делаем мы. Задачи, которые мы решаем в лаборатории, больше исследовательские. Нам интересно в принципе изучать, какие технологии позволяют решать задачи, о которых я говорил выше.
Мы занимаемся исследованиям в двух направлениях. Первое ― профилирование пользователей на основе анализа их контента. Второе направление связано с генерацией контента на основе уже существующих изображений, текстов, видео.
Расскажите подробнее об этих задачах. Как работает профилирование?
Профилирование ― это анализ контента, который пишут пользователи. Оно нужно нам, чтобы понять, кто эти пользователи, что им интересно, какой у них тип личности. ITMO.NEWS несколько лет назад публиковал историю о том, как наш алгоритм профилировал Трампа как холостяка.
Как это работает? У нас есть наш социальный портрет, который мы показываем обществу: наш возраст, место проживания, наш аватар, семейное положение. Однако есть еще психографические данные, которые говорят о том, кто мы на самом деле. Они отражаются в создаваемом нами контенте. Данные можно сложить в некий портрет на основе анализа этого контента, причем, желательно, брать разносторонний контент: видео, чекины, тексты, картинки. Все это может нам дать информацию о том, кто человек на самом деле, что ему интересно.
Если вспомнить случай с Трампом, то мы тогда анализировали и его, и других кандидатов в президенты США. По всем были верные предсказания, кроме Трампа. Точность предсказания была выше 80%, о чем это говорит? Что модель все сделала верно, просто Трамп по своей демографии не подходил к своему психографическому поведению. В принципе если кто-то из нас посмотрит на твитты Трампа, не зная, что это Трамп, мы вряд ли подумаем, что их написал женатый мужчина за 70, который занимает важный политический пост. Мы подумаем, что это кто-то существенно моложе. Так подумал и алгоритм.
Почему это важно? Потому что те, кто работает в сфере маркетинга, живут в своем мире. В нем детские товары покупают только женщины, причем от 35 до 40 лет, не озабоченные ничем, кроме материнства. На практике это не так, покупать детские товары могут и тети, и дяди, и отцы. Мамы могут любить баскетбол, а также играть в видеоигры, а не только сидеть с ребенком.
Но маркетологи, как правило, так не думают. Алгоритмы умеют понимать пользователей и таргетировать более детально, иногда предлагая одни продукты через другие. Мы можем продавать подгузники мамам, показывая им информацию о фитнес-центрах, где они могут вернуть форму после родов. Эти темы напрямую не связаны, но искусственный интеллект может эти связи построить. Вот поэтому это стало так популярно в мире и так востребовано.
А что насчет генерации контента?
На основе уже существующего контента можно генерировать новый, причем так, чтобы он выглядел как настоящий. Это как раз то, с чем борется Facebook. Но у нас тут все легитимно, потому что мы всегда предупреждаем, что тот или иной контент сгенерирован, и пользователь сам решает, смотреть ему или нет.
Мы начали заниматься этим в середине прошлого года, тогда мы создали определенные модули, которые потом легли в основу Maya и генерации рекламы вокруг нее. Мы тогда подумали, что если нейросеть может генерировать лица, то можно генерировать и динамический контент. К примеру, фастфуд выпустил баннер с рекламой нового бургера. Мы можем сгенерировать на его основе еще 100 версий такого баннера и найти среди этих версий именно ту, которая больше нравится пользователям. Если бы это делали люди, это заняло бы немыслимое количество времени. Это направление имеет очень большой потенциал.
COVID и монополия в соцсетях
Но насколько я понимаю, ваши разработки касаются не только алгоритмов для социальной рекламы?
Основным kpi для нас являются публикации и выступления на конференциях. Мы недавно опубликовали статью в очень хорошем медицинском журнале по аналитике, связанной с COVID. Мы анализировали популяции в разных странах и распространение вируса в них. Мы пытались понять, а действительно ли аналитика, которую вам дает ВОЗ, полностью верна и способна помочь в борьбе с пандемией. Или же существуют немедицинские факторы, такие как политическая система в стране, возможности по проведению тестирования, подготовленность больниц, наконец, менталитет людей, которые влияют на статистику.
Мы увидели, что COVID быстрее «развивается» в тех странах, которые наиболее подготовлены к эпидемии. Возможно, эта картина связана с тем, что там много тестирований, а в странах, где распространение вроде как меньше, просто заболевание меньше тестируют. В результате вся наша статистика подвержена смещению, потому что в одной стране насильно тестируют людей, в другой ― вообще скрывают данные.
Также мы проанализировали данные о смертности и связали их с хроническими заболеваниями и внешними факторами, такими как загрязнение воздуха. Мы нашли, что чистота воздуха намного меньше влияет на смертность, чем, допустим, хронические заболевания. В результате многие рекомендации, которые вроде как логичны на первый взгляд, могут быть оспорены, потому что развитие заболеваемости и особенно отчеты о нем во многом связаны с политической ситуацией в стране. Все это надо учитывать.
Когда вы говорили о тех проблемах, с которыми борются в Facebook, вы говорили о том, что сейчас боты могут влиять на сознание людей в планетарных масштабах. При этом, как мы знаем, многие СМИ жалуются на то, что их информация до пользователей просто не доходит через соцсети. Есть ли у вас исследования в данной области?
Вы назвали очень интересную проблему ― контент до людей не доходит. Я позволю себе уточнить, что он не доходит не потому, что много ботов, а потому, что соцсети зарабатывают на рекламе. Если они будут показывать всем контент бесплатно, то они будут меньше зарабатывать. Если вы посмотрите на график органической доступности, то он за последние годы неуклонно падает.
Органическая доступность ― это то, какое количество выложенного мною контента будет показано пользователям, подписанным на меня. Допустим, у меня есть миллион подписчиков, сколько из них увидят, если я расшарю что-то на странице? В 2011 это было 26% то есть 260 000 человек. В 2018 таких людей 0,2%. При этом пропорционально доход Facebook от рекламы вырос!
Что это означает? Что есть монополия на соцсети и если слишком много контента будет бесплатно ― это будет невыгодно соцсетям. Конечно, все это оборачивается в оболочку заботы о релевантности контента. Сокращая органический контент, его можно делать более релевантным и это действительно происходит. Facebook ― молодцы, они следят за тем, чтобы контент был более подходящим, но факт остается фактом ― повсюду, от Китая до США, доступность падает. Когда у нас получится уменьшить монополию на digital-рекламу, ровно тогда будет происходить бизнес-революция. Я думаю, что стоит копать именно в этом направлении, а не в проблемы, которые связаны с машинным обучением. Но это уже философская вещь.