AINL-2017: как субтитры к фильмам используются для обучения нейросетевых переводчиков

В Университете ИТМО прошла международная конференция по вопросам искусственного интеллекта и естественных языков (Artificial Intelligence and Natural Languages Conference). Эксперты со всего мира обсудили актуальные вопросы в области развития нейросетей, семантических технологий, глубинного обучения. С лекцией-семинаром на мероприятии выступил профессор Хельсинкского университета Йорг Тиедеман (Jörg Tiedemann). Он занимается улучшением качества машинного перевода, в том числе с использованием нейросетей. В ходе лекции он рассказал об истории развития автоматизированного перевода, а также о возможностях нейронного машинного перевода.

Как работал машинный перевод

Впервые о машинном переводе заговорил одновременно с появлением электронных вычислительных машин в 1947 году исследователь Уоррен Уивер, а первые идеи о том, как может работать такая система, были опубликованы в 1949 году. Еще через пять лет в Нью-Йорке состоялась первая презентация того, как машина перевела более 60 предложений с русского языка на английский. Перевод был очень примитивным, он выполнялся всего по шести правилам, а во фразах было не более 250 слов.

Затем появился машинный перевод на основе правил. Этот метод проводит анализ каждого слова по нескольким признакам: морфологическим, семантическим, синтаксическим, составным. Так, определяется, к какой части речи и семантической группе относится слово, какие связи имеет с ближайшими в предложении словами, является ли оно составным, то есть присутствует ли у него артикль, например. Затем в переводе эти слова согласуются друг с другом по правилам: например, определение согласуется по форме с существительным, к которому оно относится.

В 2003 году стал распространен статистический машинный перевод на базе фраз. Основной принцип этого метода заключается в том, что машина может сгенерировать максимальное количество возможных переводов той или иной фразы, но в итоге выбирает лучший вариант по ряду критериев. Так, система сделает десятки переводов разных фраз, соберет их в таблицы и будет перебирать варианты до тех пор, пока не наткнется на наиболее вероятный с точки зрения употребления в целевом языке. Существуют также варианты перевода по словам, по синтаксису, по иерархическим правилам.

Для того чтобы определять вероятность и делать перевод, такой системе нужна обширная база параллельных текстов. Что это может быть? Например, версии сайтов организаций, базы данных документов. При этом для корректной работы переводчика необходимо иметь в базе огромное количество параллельных документов. Например, если вы захотели перевести фразу «I loved the dog», в системе могут выстроиться несколько вариантов возможного перевода: «Я любил собаку», «Я влюбился в собаку», «Я полюбил собаку». Но система анализирует, какая фраза употребляется чаще, и вполне очевидно, что правильным будет выбран первый вариант перевода.

Минусы таких автоматических переводчиков всегда заключаются в том, что получаемый текст непоследователен, в нем много грамматических ошибок, а фразы вырваны из контекста, хотя пользователь может понять смысл исходного текста.

Как работает нейронный перевод

Нейронный машинный перевод использует нейросети. Нейросети работают по принципу самообучения, для которого им необходимо сравнивать конечный вариант текста с эталонным. Сеть обучается на множестве входных и выходных векторов, которыми кодируют слова. Так, когда в систему «загружается» текст, она также генерирует варианты возможного перевода, затем сравнивает результат с тем, который должен быть. И если вариант не совпадает с эталонным, то нейросеть делает перевод заново по другим параметрам и критериями до тех пор, пока перевод не совпадет. Система запомнит критерии, по которым был сделан правильный перевод, и в следующий раз с наибольшей вероятностью будет их использовать.

В качестве эталонных текстов системы нейронного машинного перевода могут использовать открытые архивы документов, данные из Интернета. А если необходимо выполнить перевод с аудионосителей, то могут использоваться субтитры к фильмам. Йорг Тиедеман рассказал про случай, когда он был на конференции в Таллине, где демонстрировали возможности нейронного машинного перевода, который выполнялся последовательно во время доклада одного из участников. Так, спикер говорил, а с помощь нейронного машинного перевода его выступление отображалось в качестве текста на экране. По словам Йорга Тиедемана, в тексте присутствовали грамматические ошибки, нестыковки во фразах, а также ярко выделялись субтитры к конкретным фильмам.

Однако плюсы нейронного машинного перевода в том, что он действительно улучшает морфологию слов, делает более правильной и логичной последовательность слов, а также создает связи между предложениями, подчеркнул Йорг Тиедеман. Кроме того, еще одно существенное преимущество в том, что нейронный переводчик группирует предложения с одинаковым смыслом в близкие друг к другу группы. Например, предложение «Она дала мне карточку в саду» расценивается по параметрам и критериям выбора почти так же, как и предложение «Я получил от нее карточку в саду».

Соответственно, слова, обладающие общими свойствами и признаками, также будут расцениваться нейросетью как расположенные близко друг к другу по значению. Как это выявляется? Например, по таким критериям, как часть речи. Слова стол и стул будут находиться в одной категории «существительное». Они также будут в одной категории по признаку «пол», по признаку «положительное значение» и так далее.

Однако здесь, как во всех остальных видах машинного перевода, есть проблема. Машине пока еще сложно учитывать дискурс текстов. Несмотря на то, что нейронный перевод «пытается» учитывать связи между предложениями, у него это получается плохо, и перевод все равно выполняется по предложениям. Кроме того, смысл предложения еще может меняться в зависимости от того, что следует далее в тексте.

Однако уже сейчас переводчик Google, а также другие компании (Microsoft, Facebook) используют нейросеть. Подробнее о том, как работает переводчик Google и каково будущее таких переводчиков, читайте в нашем материале.

Кроме Йорга Тиедемана с обучающей лекции на конференции выступил Томассо Форначиари (Tommaso Fornaciari), которые рассказал, как можно использовать вычислительные методы, чтобы распознавать ложь в устных или письменных заявлениях. Томассо Форначиари работает в полиции Италии, а также в департаменте общественной безопасности итальянского министерства внутренних дел.

Конференция Artificial Intelligence and Natural Languages проходит в шестой раз и уже традиционно в Санкт-Петербурге. Мероприятие всегда ориентировано на практические кейсы, поэтому в программе есть мастер-классы, круглые столы, обучающие лекции. В конференции приветствуется участие студентов, которые также могут выступить со своими проектами на постерной сессии.

К началу

AINL-2017: как субтитры к фильмам используются для обучения нейросетевых переводчиков

Наталья Блинникова

Похожие новости

Ускоренная сделка: как семантические технологии наведут порядок в больших данных финансового сектора

Ученые Университета ИТМО представили рекордное количество работ на конференции по эволюционным вычислениям GECCO-2019 в Праге

Стипендия Сбербанка: проект аспирантки вуза по разработке «нейросоветчика» по инвестициям выбран одним из лучших