Вы являетесь исследователем в Институте Йожефа Стефана (Словения). Расскажите, пожалуйста, подробнее о своей работе.
Мои исследования начинались с текст-майнинга и поиска информации. Далее я продолжил работать по направлению digital enterprises над извлечением информации из сложных систем, работающих там. А именно я изучал, как визуализировать эту информацию и извлекать из нее паттерны.
Каких результатов уже удалось добиться? Каково их практическое применение?
Нашей команде удалось создать систему определения аномалий, которая сейчас используется для мониторинга серверной инфраструктуры несколькими крупными компаниями. Эта система работает, фактически занимаясь мониторингом системных логов (лог-файлы — это файлы, содержащие системную информацию работы сервера или компьютера, в которые заносятся определенные действия пользователя или программы — прим.ред.). А если происходит что-то необычное, она оповещает об этом. Иными словами, она не работает по принципу предопределенности показателей. Вместо этого она сама пытается «понять», каково нормальное состояние серверов, и уведомляет об отклонениях.
У нее есть два типа мониторинговых механизмов. Один предназначен для кратковременного мониторинга: он определяет, что какой-то процесс только что пошел не так, этот механизм полезен для выявления одной-двух неполадок. Второй механизм работает на долговременной основе и отслеживает плавные изменения в системе. Например, если диск сервера заполняется и процессы со временем становятся медленнее, люди этого обычно не замечают до той поры, пока что-то не случится. Мы же, в свою очередь, создали систему, которая может определять скоротечные и медленные процессы.
С данными для каких областей вы работаете?
Я вовлечен в проекты, связанные с бизнес-информацией. Но также я работаю и с другими типами данных в разных сферах — например, в области Smart factories и логистики. Это происходит в рамках исследований в институте и участия в ряде европейских проектов.
В Университете ИТМО вы прочли лекцию о визуализации данных. Какие знания и практические навыки студенты получили по ее итогам?
Они узнали о том, как различные типы данных могут быть представлены в общем виде таким образом, чтобы позднее мы могли обрабатывать их с помощью общих механизмов. Также лекция была посвящена тому, как работает машинное обучение. Иными словами, когда вы берете какой-то тип данных — картинку, текст или какие-то машинные данные, затем немного их трансформируете, собираете все вместе и представляете их в качестве векторов или чего-то еще. После этого вы сможете применить существующие модули к этим данным. Ведь у вас уже есть инструменты, которые позволяют выполнять эти задачи, поэтому нет необходимости развивать это с нуля самостоятельно.
Если говорить в целом про визуализацию данных. Это направление, как и в целом анализ данных, — все-таки достаточно молодая область. На ваш взгляд, каких наиболее значительных результатов специалистам в этой области удалось добиться за последние годы?
Я думаю, что наиболее значительным изменением за последнее время стала доступность данных. Раньше основная проблема заключалась в том, что у нас было много механизмов анализа, которые могли делать много разных вещей, но, в конце концов, специалисты все равно вынуждены были применять их к данным, собранным в лабораториях. Поэтому было сложно добиваться практических результатов. Такие работы могли быть применены к каким-то опытным вещам, типа игры в шахматы и прочего. Но для применения в реальных условиях эти результаты были не пригодны.
Тем не менее, собирать данные до сих пор непросто.
Сбор данных — это всегда проблема, всегда сложно соединять различные базы. И наконец, очень сложно управлять теми огромными объемами данных, которые стали доступны сегодня. Представьте, если у вас петабайт данных, как вы вообще собираетесь начать их обрабатывать? Вы не можете просто открыть файл и что-то там увидеть, вам понадобятся хорошие инструменты, хорошая визуализация и, безусловно, хорошо подготовленные для этого специалисты.
Какими навыками должны обладать студенты, которые в будущем планируют построить карьеру в этой области?
Я думаю, что прежде всего стоит сказать об очень хорошем знании компьютерной техники. Если вы на высоком уровне разбираетесь в компьютерах и являетесь хорошим программистом, тогда многие задачи для вас будут гораздо проще. Естественно, должна быть сильная математика. Ну и наконец, не помешает энтузиазм.
А что лично вас мотивирует и вдохновляет в ежедневной работе? Все-таки визуализация данных, на мой взгляд, тоже, своего рода, искусство.
Да, это действительно что-то между искусством и наукой... Сложно сказать. Я начинал как разработчик ПО, а затем попал в лабораторию искусственного интеллекта. Потом я работал над парой очень увлекательных проектов, результаты которых собираюсь презентовать позже. Так сложилось, что разработка алгоритмов для обработки больших массивов данных — это то, что мне всегда очень нравилось.
Сегодня анализ и визуализация данных чрезвычайно актуальна для абсолютно разных сфер — от медицины до медиа. Если говорить о последней, появилось даже целое направление — дата-журналистика. На ваш взгляд, отразилось ли использование механизмов анализа данных на качестве информации, с которой мы сталкиваемся в Сети?
Я считаю, что как можно больше информации должно быть подкреплено цифрами и диаграммами. Особенно в такой важной области, как журналистика.
В последние годы автоматические инструменты в основном увеличили объем информации в онлайне. Например, агрегаторы новостей, такие как Новости Google, предоставляют много информации с минимальными затратами труда.
Тем не менее, я считаю, что при таком изобилии контента нам придется полагаться на механизмы анализа данных, чтобы фильтровать информацию, которая нам неинтересна, и представлять различные точки зрения на информацию, которая есть. Мы уже можем видеть автоматическую фильтрацию контента, например, высказывания, направленные на разжигание ненависти, в крупных социальных сетях. Я считаю, что в будущем нам также придется полагаться на алгоритмы обнаружения смещения и анализа настроений, чтобы выделить потенциально противоречивые фрагменты информации и представить различные точки зрения.
Может ли это стать реальным инструментом для распознавания фейковой информации?
Может быть, да. Это один из инструментов, который может сыграть решающую роль в этой области.
Как это может работать?
На выходе, я думаю, нам все равно будет нужен человек, который будет говорить: «Это “утка”, а это — правда». Но компьютер, например, может выделять различные статьи, в которых говорятся разные вещи об одном событии, то есть событие освещается с разных сторон. Таким образом, нам не нужен будет репортер, чтобы собирать все эти сведения воедино.
То есть все-таки журналисты не останутся совсем без работы?
Нет-нет, я думаю, что все же необходим человек, который будет контролировать весь процесс как минимум на данном этапе развития технологий.
Хорошая новость! Также с информацией из социальных медиа работает и большой европейский проект RENOIR, в котором участвуют исследователи из нескольких стран. Расскажите, пожалуйста, как строится ваша работа в его рамках?
Проект изучает способы распространения информации в различных сетях, и мы разрабатываем метод определения того, где эта информация может остановиться. Представьте: например, у нас есть большая часть сети тут, другая — в другом месте, а разрабатываемый метод автоматически может определить границу, где эти два фронта информации столкнутся и прекратят распространение.
Таким образом, конечная цель проекта — понять, как распространяется информация, и, если появляется какая-то новая информация, предсказать, как далеко она сможет пойти и куда. Это, в частности, очень интересно для маркетинга, так как с помощью этих данных мы можем создавать стратегии распространения информации.
Вы работаете в рамках проекта вместе с исследователями из ИТМО? Как строится сотрудничество?
Да, мы начали сотрудничать, когда я приехал сюда. Теперь мы обсуждаем возможность написания совместной работы по оценке ряда методов.
Какие результаты лично вы планируете получить по итогам проекта RENOIR?
Лично мне очень интересно узнать больше о распространении различных социальных феноменов и о том, что их регулирует.
Если говорить перспективах развития методов анализа данных — как вы думаете, насколько эта сфера в дальнейшем может повлиять на то, как мы распространяем и потребляем информацию?
Я считаю, что распространение информации станет гораздо более целенаправленным. Например, вместо того, чтобы тратить большие суммы денег на рекламные кампании, компании будут определять небольшое количество источников, что поможет более эффективно распространять информацию для своей целевой аудитории.
Также, на мой взгляд, аналитика данных в первую очередь изменит нашу аудиторию. Инструменты анализа данных очень эффективны для выявления людей со схожими интересами и могут передавать информацию между ними. Мы уже видим последствия этого явления благодаря так называемым «социальным пузырям».