Александр Белозерчик более 20 лет работает в сфере речевых технологий — туда он попал сразу после окончания факультета физики и астрономии в университете им. Герцена в 1995 году. При этом большую часть технологий и методов ему пришлось осваивать самостоятельно. Имея длинную историю сотрудничества с «Центром речевых технологий», экспертизу, накопленный опыт и практические знания, Александр все же решил получить диплом специалиста и поступил на магистерскую программу «Речевые информационные системы» в Университете ИТМО.
Для начала расскажите, пожалуйста, о своей профессии. Что такое речевые технологии и чем именно вы занимаетесь?
Я работаю в «Центре речевых технологий» уже почти 20 лет. До этого я тоже работал в области речевых технологий, но в криминалистической лаборатории — я занимался исследованиями фонограмм речевых сигналов. Мы анализировали записи и идентифицировали дикторов, исследовали фонограммы на признаки монтажа, решали другие диагностические задачи.
В ЦРТ меня пригласили в качестве эксперта по идентификации человека по голосу. Тогда еще не было никаких приложений на нейронных сетях, машинном обучении. Речевые технологии работали на других принципах: извлекались весьма понятные с точки зрения физики сигналы, признаки, исследовался речевой сигнал достаточно традиционными методами спектрального анализа. Сами модели, методы принятия решений в то время были совершенно другие.
Со временем компания развивалась, стали появляться новые востребованные рынком продукты — так появилась потребность не только в экспертах и программистах, но и в других ИТ-специалистах: технических писателях, менеджерах продуктов, аналитиках, специалистах технической поддержки. Так моя работа в ЦРТ органично переросла в продуктовую деятельность.
Я имел отношение ко многим продуктам компании, но специализируюсь на многоканальных системах регистрации и анализа речевой информации. Раньше это были просто регистраторы, а теперь это целые аппаратно-программные комплексы, которые проводят высоконагруженную — на сотни, тысячи каналов информации, — регистрацию речевой информации, ее специальную обработку и аналитику. Это достаточно развитые с точки зрения программной архитектуры системы, использующие и распознавание речи, и обработку естественного языка, и анализ текстов распознанной речи. Такие системы нужны, например, в крупных контактных центрах, куда звонят сотни тысяч людей ежедневно — все эти звонки регистрируются, анализируются, на их основе принимаются какие-то управленческие решения: о повышении качества работы, введении новых услуг или продуктов и т.д.
Я работаю с речевыми технологиями в приложении к анализу клиентского сервиса, там, где есть продукты, адресованные массовому потребителю, например, банковские кредиты, услуги провайдеров мобильной связи и т.п..
А как вы изначально попали в эту сферу?
В чем-то это случайное стечение обстоятельств, но кто знает, где случай, а где закономерность? Я очень благодарен Университету им. Герцена — там была очень хорошая кафедра экспериментальной физики. И у тех, кто тяготел к исследованиям, была масса возможностей, чтобы на нормальной экспериментальной базе оттачивать навыки ученого-исследователя. Как раз там в лаборатории Николая Петровича Дивина я начал заниматься акустическими исследованиями.
Конечно, я тогда не задавал себе вопросов о том, как физиологически устроен речевой аппарат, как речевой аппарат связан с мозгом и что такое речь как явление этого мира. Я просто занимался акустикой и защитил диплом по термоакустической автогенерации. По результатам этой дипломной работы меня порекомендовали в одну из криминалистических лабораторий, где я начал уже предметно заниматься акустикой речи и различными техническими приложениями, связанными с исследованиями фонограмм речевых сигналов.
В этой лаборатории я проработал пять лет. У нас была, конечно, специальная подготовка, но огромный пласт знаний приходилось добывать самостоятельно: в практической работе с материалом, в общении с коллегами, из специальной литературы.
А как выглядела ваша работа тогда, как именно вы анализировали речь?
Мы работали в специальных программах для спектрального исследования звуковых сигналов. Вводили звуки с обычных магнитофонных кассет в компьютер с помощью аналогово-цифровых преобразователей, плат. Существуют специальные методики, которые позволяют на основе спектральных, временных, кепстральных признаков провести идентификацию диктора.
Вторая, но не менее важная часть исследований — это многоуровневый лингвистический анализ ― на уровне фонетики, лексики, грамматики и просодики. Например, по использованию определенных слов можно многое сказать о человеке, его профессии, возрасте, социальной принадлежности и так далее, а по произнесению отдельных звуков можно достаточно уверенно судить о месте рождения и формировании языковых навыков человека.
Зачем, имея такой большой опыт и так долго проработав в профессии вы снова пошли учиться? Разве вы сами не могли выступать в качестве эксперта?
В чем-то мог, а в чем-то, безусловно, нет.
Когда я видел, на что способны ребята, которые приходят на работу в ЦРТ, я не очень понимал: чему же их учат? Я чувствовал, что они знают что-то, чего не знаю я, но, в то же время, о каких-то важных, на мой взгляд, вещах они будто бы никогда и не слышали. Мне было очень любопытно разобраться в этом вопросе, чтобы не было никаких лишних ожиданий от работы с молодыми людьми, которые устраиваются в ЦРТ. Ну и для них не хотелось казаться человеком из прошлого, который не знает и не понимает современных, очевидных для них вещей.
К тому же, хоть я так долго работаю в сфере речевых технологий, я не считал, что у меня есть достаточный багаж знаний, не было полной уверенности в том, что я знаю все, что мне нужно знать. Я хотел получить настоящее, качественное IT-образование. Я ходил с этой мыслью два или три года, думал: «Не поздно ли мне? Вроде и так нормально работаю, никаких проблем не испытываю». Но если что-то в голову приходит, лучше это сделать.
Я посмотрел на программу обучения, увидел в ней что-то совершенно новое для себя — это все, что касается анализа данных и машинного обучения. Нас такому, конечно, не учили, а сейчас это такой «мастхев».
Так что магистратура стала для меня своего рода челленджем. И еще мне нужно было поставить для себя некоторую логическую точку в своем профессиональном становлении. Представьте, что вы всю жизнь занимались чем-то, у вас большие навыки, достижения, но вы сами себя не можете считать специалистом в полной мере, потому что не получили системного образования в данной области, которое окончательно сформирует комплекс знаний, умений и навыков. Иначе можно остаться ремесленником, но профессионал не должен иметь слабых мест и пробелов в образовании.
А как у вас складывались отношения с преподавателями? Не было ощущения, что вы разбираетесь в вопросе лучше них? Не казалось, что вы и так это все уже знаете?
Преподавательский состав отличный — это высококлассные специалисты, настоящие гуру и я благодарен, что мне посчастливилось прослушать их курс.
Когда речь заходила о современных направлениях, связанных с машинным обучением, анализом данных, автоматическом анализе естественного языка — я все впитывал в себя как губка, практически с нулевой позиции. Что-то далось мне проще, в чем-то я более или менее ориентировался, например, в цифровой обработке сигналов. Тут я помогал и своим одногруппникам выполнять практические задания.
Были вещи, о которых я имел представление из литературы, но с удовольствием прослушал курс и получил более цельную картину, например, о достижениях, связанных с психологией речи, связи речи и мышления. Эти знания в том числе используется в разработке речевого искусственного интеллекта — систем, способных поддержать диалог с человеком так, как будто это другой человек, а не робот. Это одно из актуальнейших направлений в современных речевых технологиях.
Несмотря на то, что курс ориентирован на «речевиков», он предлагает и хорошую программу для тех, кто занимается мультимодальной биометрией и идентификацией по лицу. В этой области тоже для меня было много интересного.
Когда я учился в Университете Герцена, у нас весь процесс обучения кардинально отличался от того, что есть сейчас, что я видел в ИТМО. Сейчас все ориентировано на работу на компьютере: электронные обучающие материалы, лабораторные работы. В те времена у нас был один компьютерный класс — за решеткой под замком, — с пятью студентами за одним компьютером, на котором по очереди выполняли лабораторные работы.
Сейчас у выпускников по окончанию обучения на личном ноутбуке остаются программные коды, гигабайты информации — у меня же после окончания института в 1995 году осталась громадная стопка толстых тетрадей. Но я рад, что раньше было так, сейчас по-другому, и у меня есть возможность сравнить.
А насколько вам было комфортно учиться с ребятами, которые намного вас младше?
Психологического дискомфорта я не испытывал абсолютно точно — такой вопрос вообще ни разу не вставал. Мы с ребятами жили обычной студенческой жизнью, помогали друг другу с лабораторными, делились лекциями и файлами, подстраховывали, если кто-то не мог присутствовать на занятиях. Преподаватели тоже не обращали внимания, я никак не выделялся.
Сейчас такая тенденция, что люди и выглядят, и чувствуют себя гораздо моложе, чем их возраст в паспорте. Думаю, ко мне это точно так же применимо.
А вам не сложно было совмещать учебу и работу на полную ставку?
Конечно, бывало, что я зашивался, не спал по ночам, потому что нужно было и на работе что-то сделать, и по учебе успевать. Но это не только возможно, именно так и нужно делать. Придет время — отдохнем, а пока молодой, нужно пахать и не бояться трудностей. Я за то, чтобы студенты совмещали обучение и практику. Тяжело в учении — легко в бою.
А чтобы вы посоветовали нынешним студентам?
Я советую не откладывать все на последний момент, этим часто грешат студенты. Чем раньше вы начнете писать диплом, тем лучше он получится, тем интереснее будет результат. Я остался немного недовольным своей магистерской работой — просто потому, что мне не хватило времени на всё, что задумывалось. Защитился нормально, но если бы я начал делать диплом раньше, то получилось бы гораздо лучше.
А мой главный совет такой: учитесь с интересом и будьте благодарны своим учителям!