О конференции
«Диалог» ― одна крупнейших и старейших в России научных конференций по компьютерной лингвистике. Она ежегодно проходит с 1995 года. Также, по словам организаторов, мероприятие выступает ведущим мировым форумом по проблемам компьютерного анализа русского языка.
У конференции несколько целей: практическая и научная. Первая предполагает решение широкого спектра задач автоматической обработки естественного языка, а вторая — получение теоретических и языковых описаний. Мероприятие объединяет специалистов, которые обсуждают проблемы компьютерного языкознания на всем пути формирования решения — от лингвистического исследования до создания конечного продукта. Особое внимание уделяется проблемам моделирования, анализу и созданию компьютерных ресурсов для русского языка.
«Диалог» включает несколько направлений. Одно из них ― Dialogue Evaluation, в рамках которого проходят различные соревнования. В этом году их было четыре и все они посвящены различным аспектам: это и автоматическая детоксификации текстов (RUSSE Detox), и распознавание сгенерированных текстов (RuATD), и анализ аргументации (RuArg), а также извлечение вложенных именованных сущностей (RuNNE).
Мультиклассовая классификация и победа в треке
Студенты Университета ИТМО представили свои решения на соревновании по распознаванию сгенерированных текстов (RuATD), которое включало два трека: бинарный и мультиклассовый. В первом участники определяли, как был сгенерирован текст — автоматически или написан человеком. Во втором — какую модель использовали для генерации информации. Соревноваться можно было как самостоятельно, так и в команде. Также разрешали использовать любые дополнительные материалы и предварительно обученные модели, а вот брать готовые решения из интернета было запрещено.
ИТМО представили обучающиеся факультета информационных технологий и программирования Павел Посохов, Степан Скрыльников и Кирилл Апанасович. Студенты участвовали в обоих треках, но в большей степени сфокусировались на мультиклассовой задаче. Также каждый из них представлял свое решение индивидуально. В результате Павел Посохов занял первое место в мультиклассовом треке и девятое — в бинарном. А 11 место (из 30 возможных) в последнем занял Кирилл Апанасович.
«Вычислительные ресурсы нам предоставляло ООО “Центр речевых технологий” — базовое предприятие по нашей магистерской образовательной программе. Поэтому проблем с ними не было — всегда приятно работать, не волноваться о количестве и качестве “железа” и не ждать сутками окончания обучения модели. Мы работали втроем, но это была не совсем командная работа — скорее внутреннее соревнование, что придало немного больше интереса. Ну и RuATD было хорошо организовано, впечатления остались исключительно положительные», — рассказал Павел Посохов.
Где учат естественной обработке языка и не только
ООО “Центр речевых технологий” (ЦРТ) давно сотрудничает с ИТМО и выступает партнером корпоративной магистерской программы «Речевые технологии и машинное обучение». На этом направлении студентов учат продвинутому машинному обучению, голосовой биометрии, распознаванию и синтезу речи, естественной обработке языка.
Также обучающиеся проходят стажировки непосредственно в ЦРТ и принимают участие в различных проектах Университета ИТМО, в том числе в рамках программы «Приоритет-2030». После выпуска молодые специалисты занимаются разработкой и внедрением речевых и биометрических информационных систем. Они востребованы на предприятиях и в ведущих научно-исследовательских центрах по направлению информационных технологий. Например, они смогут продолжить карьеру в группе компаний ЦРТ, в экосистеме «Сбера» или в научном центре «Сильный искусственный интеллект в промышленности».
Центр ориентирован на создание технологий, которые воспроизводят творческую деятельность отраслевых специалистов ― в том числе, например, в процессе подготовки сложных управленческих решений и дизайне промышленных социотехнических систем, отмечает главный научный сотрудник Центра «Сильный искусственный интеллект в промышленности» Александр Бухановский. Для этого необходимы структурированные данные о поведении людей, вовлеченных в технологические процессы предприятия. Получать такую информацию трудно, потому специалисты активно применяют технологии анализа речи и другие биометрические характеристики.
«Речевые и биометрические технологии ИИ в их бытовом понимании — очень конкурентная массовая тематика, в которой создание серьезной научной новизны требует много усилий и времени. В чистом виде их возможности ограничены. Однако задачи Центра "Сильный искусственный интеллект в промышленности" обеспечивают их синергию с другими технологическими направлениями ИИ, позволяя решать более сложные прикладные проблемы. Например, не просто распознавать речь и оценивать психоэмоциональное состояние человека, участвующего в подготовке сложных решений, но и определять, насколько оно может негативно повлиять на качество результата», ― подчеркивает он.