Почему речевые технологии становятся все более популярными
Речевые технологии не только распознают, анализируют, но и способны помочь синтезировать голос человека. В это понятие входит как имитация речи, восприятие смысла фраз, конвертация речи в текст, так и в целом работа с голосом как с биометрической характеристикой. Этот раздел компьютерной науки считается одним из самых сложных, поскольку находится на стыке нескольких комплексных дисциплин: лингвистики, математики и программирования. Но, вместе с тем, именно речевые системы — одна из стремительно развивающихся в последние годы областей.
Например, еще два года назад 20% поисковых запросов на смартфонах были сделаны с помощью голоса. По данным Global Web Index, к голосовым опциям прибегает каждый пятый интернет-пользователь. А среди студентов этот показатель еще выше: 25% людей в возрасте от 16 до 24 лет пользуются функцией распознавания голоса. Более 60%в людей используют эту опцию для поиска информации и телефонных звонков, а также набора текста. По прогнозам экспертов, к 2020 году половина всех запросов онлайн будет вербальной. А около трети — происходить без взаимодействия с экраном.
Причины популярности и стремительного развития речевых технологий объяснимы. В среднем человек печатает около 40 слов в минуту, а говорит в три-четыре раза быстрей. Более того, в 2017 году программы практически догнали нас по понятливости. Согласно отчету Internet Trends Report, точность голосовых технологий всего за четыре года выросла с 70 до 95 процентов.
Где учат разрабатывать речевые системы?
Подготовкой специалистов, способных участвовать как в научной, так и проектной работе в области речевых информационных технологий (а это, прежде всего, распознавание и синтез речи, распознавание личности по голосу, мультимодальная биометрия) с 2011 года занимаются на базовой кафедре речевых информационных систем (РИС) в Университете ИТМО.
Кафедра была создана в 2011 году на факультете информационных технологий и программирования (ФИТиП). Организатором создания кафедры выступил «Центр речевых технологий» (ЦРТ) — российская компания с 27-летней историей, которая занимается разработкой инновационных систем в сфере высококачественной записи, обработки и анализа аудио-видео информации, а также синтеза и распознавания речи. Решения компании используются более чем в 75 странах, включая США, Латинскую Америку, Ближний Восток и Европу. Офисы группы «ЦРТ» находятся в Санкт–Петербурге, Москве и Нью–Йорке.
Ключевые особенности программы: как проходит обучение?
● без отрыва от практики
Преподавателями программы выступают ведущие специалисты базового предприятия ООО «Центр речевых технологий» (ЦРТ), а также специалисты, работающие в известных научных и коммерческих организациях. Обучение строится без отрыва от практики: поступая на программу, магистрант уже с первого курса фактически может приступить к выполнению реальных задач компании. В течение первого месяца студенты проходят тестирование в ЦРТ. Показавшие лучший результат автоматически становятся стажерами в компании и участвуют в работе над проектами под руководством консультантов и руководителей отделов.
Стажировка практически ничем не отличается от полноценной работы: стажеру выделяется рабочее место, выдается пропуск и доступ к системам компании, успешная работа (выполнение задач, поставленных руководителем) оплачивается.
При этом, как отмечает Владимир Кабаров, старший преподаватель кафедры речевых информационных систем, стажировка распределена по времени, это значит, что студент имеет возможность работать в команде над реальными коммерческими проектами в течение всего обучения. Вместе с тем, стажировка никак не мешает учебному процессу, подчеркивает он.
«Форма обучения выбрана максимально оптимально: у нас все находится рядом — и учебные классы, и руководители, и консультанты, и работа. Именно поэтому студент, отучившись, может без проблем, не теряя времени, отправиться на рабочее место, которое находится буквально этажом выше, — рассказывает Владимир Кабаров. — По последним данным, стажерами в ЦРТ работают 70% магистрантов. Это те студенты, которые успешно прошли тестирование. Остальные получают возможность подтянуть знания, выполняя учебные проекты. С каждым стажером сразу оговариваются регламенты работы, например, 10 часов в неделю он должен уделять работе по проекту, все это контролируется. Таким образом, мы предлагаем ребятам, которые к нам поступают, учебу, привязанную к реальным задачам. Успешная работа оплачивается»
● в сотрудничестве с зарубежными университетами и научными центрами
Помимо возможности начать стажировку в ЦРТ, уже с первого курса студенты магистерской программы «Речевые информационные системы» могут отправиться на стажировку в зарубежные вузы по программе руководства магистрантами, реализуемой совместно с Университетом Ульма (Ulm University, Германия) в рамках Leonhard Euler Program фонда DAAD. Как отмечает Юрий Матвеев, заведующий кафедрой РИС, раз в семестр на кафедру приезжает профессор Университета Ульма — на встрече студенты представляют доклад о своей работе на английском языке, после чего наиболее успешные магистранты могут отправиться в Германию на преддипломную практику, чтобы продолжить свои исследования.
Что изменится в 2018 году?
С нового учебного года в связи с реформированием кафедральной системы в Университете ИТМО магистерская программа «Речевые информационные системы» выйдет за пределы кафедры и войдет в состав укрупненной магистерской образовательной программы факультета ИТиП. Эти изменения позволят оптимизировать учебные планы и исключить из магистерской программы дублирующие дисциплины, которые частично давались студентам еще в бакалавриате, говорит Юрий Матвеев. Однако общая структура, цели, задачи и формат обучения останется прежним: студенты также будут иметь возможность работать над проектами в компании и стажироваться за рубежом, подчеркивает он.
Траектории развития
● Лучшие стажеры-магистры зачисляются в штат
Уже после первого года обучения в магистратуре лучшие студенты могут быть зачислены в штат компании. Таким образом, они продолжают учиться и готовить магистерские диссертации, уже будучи сотрудниками ЦРТ.
Например, такой путь прошел Дмитрий Убский, который пришел на стажировку на первом курсе, а сейчас уже является сотрудником компании и работает в команде, которая занимается перспективными исследованиями.
«Дима когда-то пришел к нам совершенно зеленым бакалавром. Сначала мы поручали ему задачи по подбору параметров в системах, а сейчас он уже входит в команду, которая занимается перспективными исследованиями и делает новые алгоритмы распознавания речи, — рассказывает Кирилл Левин, директор научно-исследовательского департамента «Центра речевых технологий». — К настоящему моменту он уже закончил учебу в магистратуре, но продолжает обучение и исследовательскую деятельность, поступил в аспирантуру. У него уже два доклада на престижных международных конференциях. Мы также рассматриваем возможность его стажировки за рубежом, уже есть договор о его двойной аспирантуре в Германии».
● Уже будучи сотрудником, можно продолжить научные исследования в аспирантуре
Как и Дмитрий Убский, любой сотрудник компании, успешно окончивший магистратуру и желающий продолжить обучение, может поступить в аспирантуру. В ЦРТ поощряется ведение научной деятельности, подготовка и защита кандидатских диссертаций.
● Аспиранты могут получить PhD в университетах Европы
Кафедра сотрудничает как по магистерским, так и по аспирантским программам с ведущими вузами Германии, Франции, Финляндии, Чехии и Италии. В частности, на кафедре уже успешно реализуются программы Double degree аспирантуры с University of Eastern Finland, Joensuu (Финляндия), University du Maine, Le Mans (Франция), University of West Bohemia (Чехия) и с Ulm University (Германия).
Над какими проектами студенты работают в ЦРТ?
Уже с первого курса магистратуры успешно прошедшие тестирование студенты получают возможность работать над проектами компании под руководством опытных сотрудников и начальников отделов. Как отмечает Кирилл Левин, это прежде всего работа в рамках классических для ЦРТ направлений — автоматического распознавания и синтеза речи, выполнение задач по голосовой биометрии. Кроме того, не так давно в компании работают над созданием технологий идентификации человека по лицу.
Что такое «Нейроухо» и как проект поможет роботам ориентироваться в пространстве
В апреле этого года в «Центре речевых технологий» стартовал новый проект под названием «Нейроухо». Его главная задача заключается в том, чтобы построить единую платформу для технологии машинного слуха.
«По сути дела, это описание звуковой сцены. Например, сейчас мы сидим с вами, но если вы закроете глаза и кто-то спросит вас, что происходит, вы сможете по звуку описать происходящее. Вы ответите, что слышите шум улицы, мой голос, вы понимаете, что я говорю, в каком я состоянии нахожусь, какие-то дополнительные звуки тоже вам известны. Все это мы хотим предоставить в качестве автоматической платформы, — рассказывает Кирилл Левин. — Для чего это нужно? К примеру, вам необходимо сделать робота. Да, вы прекрасно разбираетесь в кинематике, механике, построили машинный интеллект, который управляет движениями, но ведь, помимо этого, роботу нужно дать возможность воспринимать окружающую среду, оценивать ситуацию — куда повернуть голову, куда бежать, что отвечать, если его о чем-то спрашивают. У современных разработчиков фактически нет выбора: у одного производителя они возьмут технологию распознавания речи, у другого — идентификацию, еще где-то возьмут технологию ориентации в пространстве. Но все это серьезно замедляет прогресс. Чтобы этой ситуации не возникало, мы хотим создать платформу, где все собрано воедино».
Особенность создания платформы в том, что она строится не только на использовании машинного обучения. В рамках проекта «Нейроухо» специалисты компании взаимодействуют с институтами РАН, а также различными научными центрами, например, Курчатовским институтом, лабораториями слуха в медицинских учреждениях. Взаимодействие IT-специалистов, ученых-биологов и медиков позволяет понять, как в голове человека происходит обработка звуковой информации.
Проект только стартовал и сегодня компания активно набирает специалистов.
«Количество вакансий зашкаливает. Мы ищем молодых людей, которые знают основы машинного обучения, прекрасно разбираются в математической статистике и теории вероятности — то есть у них заложена хорошая фундаментальная база. И самое главное, нам нужны люди, которые не боятся учиться. Ведь здесь им предстоит столкнуться с нетривиальными задачами», — отмечают в компании.
Как попробовать заниматься речевыми технологиями и сделать собственный синтез речи
При этом начать заниматься речевыми технологиями и, например, сделать свой синтез речи — вполне реально. В этом году компания «Центр речевых технологий» запускает собственный конкурс, главная задача которого — показать, что современные методы машинного обучения делают сложные задачи простыми для реализации.
«Безусловно, специалисты, создавая промышленный образец, очень много времени тратят на детали. Релиз — это всегда гораздо сложнее, чем макет. Но сделать так, что за неделю ты можешь натренировать «черный ящик» на то, чтобы он говорил человеческим голосом — это возможно, это не что-то, что находится за гранью понимания. Безусловно, мы будем давать очень много материала, открывать собственные коммерческие базы и рассказывать, как это можно сделать. Но в итоге у человека появится возможность своими руками сделать тот синтез, который он хочет. Вот, к примеру, хочется вам, чтобы ваш продукт говорил голосом Дарта Вейдера, но где вы найдете, как Дарт Вейдер говорит: «Добро пожаловать в Россию»? Такого нет. А на конкурсе у участников появится реальная возможность сделать любой синтез речи», — говорит Кирилл Левин.
В апреле на мероприятии «Найти IT» специалисты компании уже показали, с чего начать и как можно сделать простой синтез речи всего за час. Но большой конкурс по синтезу речи от компании ЦРТ стартует в середине июня. Участвовать можно как индивидуально, так и прийти на соревнование с командой. Оценивать специальная комиссия будет только качество синтеза речи, который участники смогут создать на выходе. При этом если подготовить синтез команды смогут по готовым инструкциям от экспертов компании, то улучшить его, убрать шумы, а также сделать его максимально естественным и приближенным к человеческому голосу — задача, с которой справятся только лучшие.
Победитель финала и разработчик лучшего синтеза получит 100 000 рублей от компании «Центр речевых технологий». Кроме того, уже в мае компания ЦРТ запускает серию митапов — профессиональных встреч для IT-специалистов. Первая встреча будет посвящена высоконагруженным системам. В неформальной обстановке представители разных компаний, а также студенты смогут поделиться опытом, а также установить полезные контакты в профессиональной среде.
«Эта тема важна не только для нас, но и для IT-сферы, это нужно обсуждать и обмениваться опытом, интересными решениями в том или ином направлении. А студенты, которые захотят поучаствовать в этих встречах, смогут повысить свою квалификацию на реальных примерах из жизни, реальных кейсах компаний. Такие встречи будут происходить с периодичностью два раза в квартал», — рассказывает Елена Никишева, директор по персоналу компании ЦРТ.
Узнать подробнее о стажерской программе ЦРТ можно здесь.