Выявление агрессии и токсичности в текстах пользователей стало популярным направлением для исследований в области компьютерных наук и лингвистики. Перед участниками хакатона стояла задача — научить ИИ находить в сообщениях некорректные высказывания, переписывать их или удалять, чтобы тексты приобрели вежливую форму. При этой переработке важно сохранить основной смысл, который закладывал пользователь.
«На решение этой задачи ушли сутки. Мы взяли переводчик No Language Left Behind, дообучили его на перевод с русского на татарский. После этого мы перевели на татарский язык множество пар — примеры негативной коммуникации и лояльный эквивалент. Такие пары называются корпусом текстов. На нем мы и учили ИИ-модели детоксикации текстов», — рассказал студент ИТМО и участник Sota Даниил Антонов.
Подход, представленный командой студентов ИТМО и ВШЭ, основан на использовании знаний от моделей ИИ, которые обучены на русском языке. Программисты адаптировали их для татарского языка, который мало представлен в цифровой среде.
Соревнования по детоксикации текстов организовала Академия наук Татарстана совместно с Институтом AIRI. Соревнования объединили 368 участников из разных университетов страны.
