Денис Иванько, аспирант второго года обучения кафедры речевых информационных систем Университета ИТМО, осенью отправится в Университет города Ульма, где будет работать над системой распознавания речи человека.
«Мы разрабатываем систему, которая будет распознавать речь по аудио- и видеоинформации одновременно: речь идет о чтении по губам человека и распознавании речи с микрофона. Мы объединяем эти две модальности, чтобы достичь наиболее точных результатов», – поделился исследователь.
В основе системы – машинное обучение и нейронные сети. Сейчас у разработчика уже есть прототип системы – базовая версия, которую создатели стремятся усовершенствовать.
В Ульмском университете аспирант обучается по программе двойных дипломов, однако именно в этом вузе, по словам Дениса Иванько, разработана высококачественная научная база, которая связана с распознаванием лиц и диалоговых приложений, то есть систем, которые уже применяются и могут быть использованы в его работе.
Несмотря на то, что распознавание речи сегодня – популярная тема, Google Voice, Siri и другие существующие системы работают недостаточно хорошо, по мнению экспертов. Именно поэтому ученые стремятся сделать так, чтобы машины научились распознавать речь на уровне, максимально приближенном к уровню распознавания речи человеком. В таких местах, как метро, железнодорожный вокзал или аэропорт, которые характеризуются большим скоплением людей и высоким уровнем шума, запись микрофона часто зашумлена, что мешает системе распознавать речь отчетливо.
«Мы добавляем к классическому методу распознавания также анализ видеоинформации, что позволит более точно определять границы речи и целевого пользователя, речь которого надо распознать, а не того, кто рядом просто разговаривает. Второе новшество нашего исследования – высокоскоростная камера. Исследования с обычными камерами уже проводились (25 кадров в секунду) и не показали точного результата: человек говорит быстро, и очень много информации теряется, так как в один кадр человек может успеть произнести три звука. Поэтому мы решили использовать высокоскоростную камеру, которая захватывает 200 кадров в секунду, и это позволяет более точно отобразить динамику изменения губ диктора», – поделился Денис Иванько.
Исследование аспиранта носит в большей степени фундаментальный характер –коммерческое приложение создатели пока не разрабатывают. В Германии молодой ученый будет совершенствовать математические модели, обучение системы и другие ее элементы.
Туда же, в Ульмский Университет, отправится другой аспирант кафедры речевых информационных систем Университета ИТМО Алексей Романенко для проведения исследования по робастому (устойчивому к помехам) распознаванию речи для малоресурсных языков.
Малоресурсными языками называют группу языков, развитие информационных технологий для которых является недостаточным. Существует ряд критериев (например, обработка речи, распознавание речи, автоматический перевод и прочее), по которым эксперты относят те или иные языки к категории малоресурсных.
«Возьмем грузинский язык. На этом языке говорит значительное количество людей. Однако систем распознавания, обладающих приличным качеством для этого языка, – нет. Кроме того, материалов (текстовых данных и аудиозаписей), необходимых для построения таких систем, недостаточно, или они отсутствуют вовсе. Моя задача, пользуясь современными технологиями и разрабатывая собственные методы, сделать так, чтобы на этом языке автоматическое распознавание речи работало надежно и качественно», – рассказал Алексей Романенко.
В Германии аспирант проведет исследования, направленные на формирование методики построения систем автоматического распознавания речи таких видов языков, для которых характерна нехватка ресурсов.
Федор Глущенко, аспирант второго года обучения кафедры технологии приборостроения Университета ИТМО, отправится в Университет прикладных наук Эмден-Лир, где станет изучать средства автоматизации производства в концепции Индустрии 4.0 и переход к этим технологиям на кафедре.
Исследование молодого ученого связано с работой литьевой машины, на которой можно отливать различные изделия из полимеров. Так как процесс этот в некоторых случаях сложный, для наилучшего результата необходима его автоматизация. В Германии в данный момент проходит активное изучение и осваивание технологий Индустрии 4.0, направленных на всеобъемлющую информатизацию производства.
«В том вузе, куда я направляюсь, мне предоставят различные манипуляторы, сенсоры, и я постараюсь обучиться базовым навыкам создания сетей между такими устройствами. Полученные знания будут направлены на развитие лаборатории литьевых процессов, в котором к уже имеющейся литьевой машине будут доставлены роботы, конвейеры и средства контроля», – поделился аспирант.
Создание оптических изделий из полимерных материалов – это технологически сложный процесс ввиду высокой точности оптических поверхностей. В процессе производства таких изделий важно контролировать каждый этап: первоначальную транспортировку материала и комплектующих литьевой формы, параметры литья, транспортировку отлитого изделия до участка контроля, последующую транспортировку и выборку годных изделий. Кроме того, каждое ответственное изделие должно проверяться на однородность материала, что сильно влияет на оптические свойства и на многие другие параметры. Для выполнения этих требований следует использовать автоматизированные системы транспортировки, контроля литья, контроля изделий. Учитывая все особенности технологического процесса, важно также произвести комплексную автоматизацию всех этапов, связав их в единый производственный процесс. Работа молодого специалиста посвящена разработке такого автоматизированного производственного процесса.