В последние годы появляется всё больше программ для автоматической генерации текстов ― системы сами создают короткие предложения и целые абзацы, почти не отличимые от того, что написал бы человек. Но можно ли определить, кто всё-таки создал текст ― живой пользователь или программа? И как понять, какую именно модель использовали для генерации информации? Этими задачами занимались магистранты факультета информационных технологий и программирования ИТМО на крупнейшей в России научной конференции по компьютерной лингвистике «Диалог». О том, каких результатов им удалось добиться, зачем еще нужны навыки по обработке естественного языка и где их получить, рассказываем в материале.

О конференции

«Диалог» ― одна крупнейших и старейших в России научных конференций по компьютерной лингвистике. Она ежегодно проходит с 1995 года. Также, по словам организаторов, мероприятие выступает ведущим мировым форумом по проблемам компьютерного анализа русского языка.

У конференции несколько целей: практическая и научная. Первая предполагает решение широкого спектра задач автоматической обработки естественного языка, а вторая — получение теоретических и языковых описаний. Мероприятие объединяет специалистов, которые обсуждают проблемы компьютерного языкознания на всем пути формирования решения — от лингвистического исследования до создания конечного продукта. Особое внимание уделяется проблемам моделирования, анализу и созданию компьютерных ресурсов для русского языка.

«Диалог» включает несколько направлений. Одно из них ― Dialogue Evaluation, в рамках которого проходят различные соревнования. В этом году их было четыре и все они посвящены различным аспектам: это и автоматическая детоксификации текстов (RUSSE Detox), и распознавание сгенерированных текстов (RuATD), и анализ аргументации (RuArg), а также извлечение вложенных именованных сущностей (RuNNE).

Мультиклассовая классификация и победа в треке

Студенты Университета ИТМО представили свои решения на соревновании по распознаванию сгенерированных текстов (RuATD), которое включало два трека: бинарный и мультиклассовый. В первом участники определяли, как был сгенерирован текст — автоматически или написан человеком. Во втором — какую модель использовали для генерации информации. Соревноваться можно было как самостоятельно, так и в команде. Также разрешали использовать любые дополнительные материалы и предварительно обученные модели, а вот брать готовые решения из интернета было запрещено.

ИТМО представили обучающиеся факультета информационных технологий и программирования Павел Посохов, Степан Скрыльников и Кирилл Апанасович. Студенты участвовали в обоих треках, но в большей степени сфокусировались на мультиклассовой задаче. Также каждый из них представлял свое решение индивидуально. В результате Павел Посохов занял первое место в мультиклассовом треке и девятое — в бинарном. А 11 место (из 30 возможных) в последнем занял Кирилл Апанасович.

«Вычислительные ресурсы нам предоставляло ООО “Центр речевых технологий” — базовое предприятие по нашей магистерской образовательной программе. Поэтому проблем с ними не было — всегда приятно работать, не волноваться о количестве и качестве “железа” и не ждать сутками окончания обучения модели. Мы работали втроем, но это была не совсем командная работа — скорее внутреннее соревнование, что придало немного больше интереса. Ну и RuATD было хорошо организовано, впечатления остались исключительно положительные», — рассказал Павел Посохов.

Павел Посохов (слева). Фото из личного архива собеседника

Где учат естественной обработке языка и не только

ООО “Центр речевых технологий” (ЦРТ) давно сотрудничает с ИТМО и выступает партнером корпоративной магистерской программы «Речевые технологии и машинное обучение». На этом направлении студентов учат продвинутому машинному обучению, голосовой биометрии, распознаванию и синтезу речи, естественной обработке языка.

Также обучающиеся проходят стажировки непосредственно в ЦРТ и принимают участие в различных проектах Университета ИТМО, в том числе в рамках программы «Приоритет-2030». После выпуска молодые специалисты занимаются разработкой и внедрением речевых и биометрических информационных систем. Они востребованы на предприятиях и в ведущих научно-исследовательских центрах по направлению информационных технологий. Например, они смогут продолжить карьеру в группе компаний ЦРТ, в экосистеме «Сбера» или в научном центре «Сильный искусственный интеллект в промышленности».

Центр ориентирован на создание технологий, которые воспроизводят творческую деятельность отраслевых специалистов ― в том числе, например, в процессе подготовки сложных управленческих решений и дизайне промышленных социотехнических систем, отмечает главный научный сотрудник Центра «Сильный искусственный интеллект в промышленности» Александр Бухановский. Для этого необходимы структурированные данные о поведении людей, вовлеченных в технологические процессы предприятия. Получать такую информацию трудно, потому специалисты активно применяют технологии анализа речи и другие биометрические характеристики.

«Речевые и биометрические технологии ИИ в их бытовом понимании — очень конкурентная массовая тематика, в которой создание серьезной научной новизны требует много усилий и времени. В чистом виде их возможности ограничены. Однако задачи Центра "Сильный искусственный интеллект в промышленности" обеспечивают их синергию с другими технологическими направлениями ИИ, позволяя решать более сложные прикладные проблемы. Например, не просто распознавать речь и оценивать психоэмоциональное состояние человека, участвующего в подготовке сложных решений, но и определять, насколько оно может негативно повлиять на качество результата», ― подчеркивает он.

Александр Бухановский. Фото: Мария Бакина / «Мегабайт Медиа»

К началу

Человек или нейросеть: какие результаты показали студенты ИТМО на крупнейшей в России научной конференции по компьютерной лингвистике

О конференции

Мультиклассовая классификация и победа в треке

Где учат естественной обработке языка и не только

Софья Жданова

Александр Бухановский

Похожие новости

«Магистратура стала для меня челленджем»: как выпускник ИТМО поступил в магистратуру спустя 20 лет работы в профессии и что из этого вышло

Технологии машинного слуха, синтез речи и не только: как устроено обучение речевым технологиям в Университете ИТМО

«Год назад у нас не было ничего, кроме идеи, а сейчас в нас заинтересованы крупные компании»: аспирант ИТМО Родион Юрьев ― о развитии бизнеса и вере в себя