В летней школе машинного обучения Algorythm приняли участие девять человек. Все участники – студенты разных вузов страны и, более того, жители разных городов. Чтобы в течение десяти дней освоить навыки машинного обучения у практикующих специалистов, ребята приехали из Череповца, Москвы, Подольска, Ярославля и Санкт-Петербурга. Стать участником программы мог любой студент, который справился с тестовым заданием на работу с нейронными сетями.
«На вступительном испытании организаторы летней школы предложили нам создать некую систему распознавания дорожных знаков на изображениях, на готовой базе данных, которая с 2012 года присутствует в сети. Задача была детектировать дорожный знак на изображении и затем классифицировать его. Мы были свободны в выборе библиотек, подходов, главное – показать результат. Многие ребята писали сверточные сети для решения задачи. Кто-то попробовал использовать алгоритм Виолы–Джонса. После прохождения этого задания состоялось отборочное интервью, по результатам которого несколько человек были отобраны на программу. Я думаю, первое задание было весьма актуальным, потому что последние два года крупные компании плотно занимаются разработкой систем автоматического управления автомобилей, поэтому распознавание дорожных знаков – одна из главных задач в этом деле. Другими словами, нам сразу предложили проблему, которая находится сегодня на острие науки», – рассказал один из участников программы, студент кафедры высшей математики Университета ИТМО Иван Кремнев.
Уже после того, как стали известны имена зачисленных в школу участников, организаторы предложили студентам поработать над реальным проектом компании ЦРТ. В рамках летней школы учащиеся должны были создать систему распознавания речи по звуку, видео, а также звуку и видео вместе. Для экспериментов была использована база, собранная компанией ЦРТ, содержащая видеозаписи произнесения цифр русского языка. Также была предоставлена реализованная на Python baseline-система, при помощи которой учащиеся смогли на практике познакомиться с технологиями распознавания речи. Основной задачей стало усовершенствование baseline-системы с целью минимизации ошибки распознавания речи по губам и голосу.
«С Университетом ИТМО мы взаимодействуем более пяти лет. Здесь у нас базовая кафедра речевых информационных систем. Когда встал вопрос о том, как проводить летнюю школу, мы долго не задумывались. У нас есть базовая кафедра, есть преподаватели, площадка, оснащение. Эта школа не первый образовательный опыт ЦРТ. Мы много лет искали форматы, проводили конкурсы, семинары, однако такую школу организовали впервые, и, надо заметить, формат оказался очень удачным, потому что есть возможность научить, заинтересовать и в длительном взаимодействии посмотреть на каждого участника, оценить их в работе», – рассказал директор научно-исследовательского департамента ЦРТ Кирилл Левин.
Для работы над заданием участники объединились в группы по три человека. В попытке распознать, что было сказано человеком (из словаря из десяти слов, где произносились цифры на русском языке), каждая команда использовала разные подходы. Так, одна из команд использовала статью по аудиовизуальному синтезу русской речи, где было сказано, что положение губ можно разбить на 14 визем (визуальных реализаций фонем), которые описывают все звуки, произносимые человеком. Первой задачей ребят стала переразметка базы по изображениям, которая была предоставлена организаторами, в соответствии с тем, какая визема была произнесена человеком.
В рамках летней школы обучающиеся получили широкий спектр знаний в области обработки речи и видео, которые сразу смогли применить на практике. В день, как правило, ученики прослушивали две лекции, после чего отрабатывали полученные навыки на практике. Во время лекционных занятий участники программы узнали о цифровой обработке сигналов, об автоматическом распознавании речи, о цифровой обработке изображений и видео, об алгоритмах компьютерного зрения, автоматическом распознавании речи по губам, а также автоматическом распознавании речи по губам и голосу. Кроме занятий, участников ожидали и внеучебные активности. Так, например, ученики школы сходили на футбольный матч «Зенит» – «Утрехт» 24 августа.
«После того как мы отучились полторы недели и попробовали все своими руками, у нас оставалось два дня на создание работающей системы. Некоторые ребята работали над системами, которым предоставляешь данные, а в качестве выхода получаешь уже слова. Мы в качестве выхода получали отдельные фонемы, отдельные звуки. Дальше, по классической схеме, после получения фонем мы должны были использовать кодер, который эти фонемы преобразует в слова. Эта задача уже выполнялась без технологий машинного обучения», – рассказывает Иван Кремнев.
По итогам обучения студенты получили сертификаты школы, а трем лучшим предложили продолжить работу над проектом в качестве сотрудников научно-исследовательского департамента группы компаний ЦРТ. Однако, по словам организаторов, компания открыта для рассмотрения кандидатур и всех других участников школы. В планах организаторов сделать летнюю школу машинного обучения ежегодной.
«Те навыки, которые у вас сейчас есть, это то, что позволит вам свободно встраиваться в реальность. ЦРТ об этом очень серьезно думает, потому что одному человеку очень легко встроиться в будущую технологическую картину мира, а вот целой компании гораздо сложнее. Поэтому сейчас у нас, помимо распознавания речи, распознавания человека по лицу или голосу, идентификации языка, распознавания эмоций мы занимаемся технологиями, близкими к ИИ, среди которых чат-боты, и работаем с большими данными», – поделился Кирилл Левин.