Аспирант Университета ИТМО разрабатывает систему, призванную автоматически определять фейки

Аспирант факультета инфокоммуникационных технологий Университета ИТМО Арсений Третьяков провел два семестра в Мадридском университете имени Карлоса III. Во время стажировки и академического обмена он собрал датасет для будущей системы распознавания фейковых новостей. Сейчас Арсений продолжает пополнять и совершенствовать испаноязычную базу данных. Мы поговорили с автором проекта и специалистами Университета ИТМО о возможности создать русскоязычный аналог такой системы и о трудностях такой работы.

Проблема фейковых новостей родилась вместе с журналистикой. Авторы не всегда могли получить нужную информацию от первых лиц, поэтому ссылались на непроверенные источники, попросту говоря — на слухи. Ситуация менялась с развитием средств информационного взаимодействия: телеграф, регулярная почта, телефон, интернет. Эти разработки упрощали коммуникацию между журналистом и владельцем информации. Постепенно качество публикаций росло.

Однако не стоит забывать, что фейковые новости появлялись не только из-за технических сложностей и ошибок их авторов. Нередко подобные «утки» заказывали, чтобы уничтожить репутацию конкурента или дестабилизировать ситуацию в обществе.

Аспирант Университета ИТМО Арсений Третьяков разрабатывает систему, которая с помощью нейронных сетей и собранных датасетов призвана автоматически просчитывать вероятность сфабрикованности текста. До аспирантуры ИТМО он учился на журфаке и работал журналистом. Сменив вектор исследований с гуманитарных на технические, он занялся разработкой автоматической системы для определения фейковых новостей.

«Арсений брался за малоизученную область. Несмотря на то, что понятие “фейковая новость” было на слуху: все о феномене знали, но не умели автоматизировано выявлять. Я считаю, что его разработка позволит уберечь общество от лишних страхов, паники и непродуманных действий», — рассказывает научный руководитель Арсения Третьякова, доцент факультета инфокоммуникационных технологий Университета ИТМО, кандидат технических наук доцент Наталия Горлушкина.

Арсений Третьяков. Фото из личного архива

Первоначально аспирант планировал работать с русскоязычными медиа. Но столкнулся с проблемой. В России не нашлось достаточного количества проектов по проверке фактов, которые агрегируют и систематизируют фейковые новости, необходимые для обучения нейронной сети.

«Банально звучит, но для того, чтобы работать с базами данных — нужны данные. В России с упорядоченными и разбитыми по темам новостями были сложности, но основной фактор, почему система сейчас испаноязычная — это приглашение на стажировку. Я поехал в Испанию, где моей идеей также заинтересовались. У них было много выявленных поддельных новостей, в предыдущие годы в стране произошла череда политических и экономических событий, которые инициировали этот всплеск. К тому же, в Испании есть фактчекинговые агентства, которые отслеживают такие прецеденты. Одно из них, Maldito Bulo, поделилось со мной данными (примерами фейковых новостей), часть собирал через архив MyNews.es, а что-то — вручную. После этого я перешёл к созданию датасета и обучению нейросети», — пояснил аспирант факультета инфокоммуникационных технологий Университета ИТМО Арсений Третьяков.

Арсений отметил, что большинство исследований по фейковым новостям были проведены по англоязычному контенту, а исследований по выявлению испанских новостей, а тем более русскоязычных, очень мало. Кроме того, многие ученые предпочитают работать с твитами, что удобнее и эффективнее, но поскольку всё большее распространение получают новые типы фейков, например, в Whatsapp, то есть смысл стараться охватить и их.

Сайт фактчекингового агентства Maldito Bulo. Источник: maldita.es

Сейчас аспирант продолжает пополнять базу данных будущей системы, проводит испытания по работе с ней, а также исследует возможное внедрение метаданных. Его цель — это программное обеспечение или плагин, куда можно будет загружать новость для проверки. По словам Арсения, тестирования показали, что система сможет отличать ложную новость с точностью до 90% за счет комбинации алгоритмов глубокого обучения, обработки естественного языка, распознавания именованных объектов.

«Предлагаемый Арсением инструментарий в перспективе не только уменьшит информационный шум, но и научит читателей аппелировать достоверными данными, а значит, повысит качество их решений в экономической и социальной сферах. Безусловно, такой “инструмент контроля” новостей не должен быть доступен каждому пользователю, иначе мы придем к отрицательному эффекту. Он скорее должен работать без участия пользователя, отсекая всё, что, на его взгляд, является недостоверными сведениями», — поделился своим мнением заместитель декана факультета инфокоммуникационных технологий, доктор технических наук, доцент Олег Басов.

Он также рассказал, что на мегафакультете трансляционных информационных технологий постоянно ведется разработка инструментария анализа, классификации и интерпретации гетерогенных информационных потоков в слабоформализованных областях знания.

«Появление правового механизма, регулирующего распространение фейковых новостей, несомненно, делает проблему их автоматического обнаружения более актуальной. Отмечу, что при государственном заказе на такую систему мы могли бы силами нашего мегафакультета собрать ее первую версию за год. А в дальнейшем уже дополнять датасет и стремиться к более высокой точности выявления фейков», — добавил Олег Басов.

По словам Олега Басова, на факультете инфокоммуникационных технологий Университета ИТМО уже имеется ряд технический решений, которые позволяют определять истинность сообщаемой информации по речи и видео. Он считает, что этот опыт может ускорить создание средств для борьбы с недостоверной информацией в российском медиапространстве.

Добавим, что в начале апреля президент Владимир Путин подписал закон о поправках в КоАП РФ, которыми предусматриваются штрафы за ложную информацию в СМИ и интернете. Закон одобрили в рамках мер борьбы с коронавирусом COVID-19 и его последствиями. Штраф может составить от 1,5 млн до 10 млн руб.

К началу

Аспирант Университета ИТМО разрабатывает систему, призванную автоматически определять фейки

Антонина Никулина

Похожие новости

Проект RENOIR: как диджитализация меняет индустрию новостей

Как правильно читать новости и не попасться на фейки

Приложение студентов Университета ИТМО поможет пабликам искать интересные новости и предсказывать, что попадет в топ