Недавно вы и ваши коллеги опубликовали статью о том, как работают системы голосовой аутентификации в банках и как эти системы обманывают мошенники. Не могли бы вы рассказать об этом нашим читателям?
Да, действительно. Банки активно внедряют системы идентификации своих клиентов по голосу. Это делается для того, чтобы упростить жизнь клиентов. Но, увы, это имеет и обратную сторону. Чем удобнее с системой работать, тем ниже ее безопасность.
В последние годы мы часто слышим о том, что злоумышленники с помощью поддельных записей голоса клиента обманывали систему безопасности и получали доступ к счетам, проводили транзакции, брали кредиты, переводили деньги на другие счета.
В своей статье мы рассмотрели то, как можно синтезировать голос, похожий на голос живого человека, как сейчас в мире распознают такой обман, какие есть методы для распознавания сгенерированной речи, что для этого нужно.
А вообще, насколько сложно сейчас правдоподобно подделать голос живого человека?
Если у нас есть хорошая запись голоса живого человека, то синтезировать на ее основе новую аудиодорожку, даже с совсем другим текстом, труда не составит. Сейчас особенное распространение получили системы синтезирования речи на основе нейронных сетей.
Сегодня есть уже обученные нейронные сети в открытом доступе, если их надо переобучить, написать для них новый командный код, то это сделает любой грамотный программист, владеющий языком Python за пару секунд.
На выходе получается достаточно правдоподобный звук, который может обмануть автоматическую систему. Это создает уязвимость, которую банки и пытаются устранить.
Для этого нужно взламывать базы данных самого банка и получать доступ к записям голосов клиентов?
Нет. Тем более, что это весьма сложно. Такие системы очень хорошо защищены, там многоуровневая система безопасности, которую обойти очень непросто. Для этого используется обычный фишинг, когда человек звонит вам и представляется сотрудником банка, завязывает с вами разговор и записывает его.
А как долго должен длиться разговор? Достаточно просто ответить на звонок и сказать «ало», или мошеннику нужна длинная беседа?
Конечно, слова «ало», недостаточно. Но вполне хватит ответа на пять-шесть вопросов. Это позволит получить данные об амплитуде голоса, тоне, тембре, семантике речи, тому, как человека связывает слоги и слова. Все это записывается, анализируется и на основе этих данных можно сгенерировать новую дорожку для обмана банковской системы.
Как сейчас в мире борются с таким видом мошенничества?
Разрабатываются системы, которые должны отличать сгенерированный голос от настоящего. Они основываются на том, что полностью воссоздать речь человека невозможно. Все равно будут моменты, по которым можно будет найти отличия. Во всяком случае пока.
Однако такие методы пока не везде применяются. Эти системы только начинают активно развиваться. Поэтому в основном банки просто используют многоуровневую аутентификацию. Не только по голосу, но и еще по каким-то критериям.
Что в этом направлении делается в Университете ИТМО?
Мы также сейчас работаем над проектом по этой проблеме. Как раз создаем системы для выявления сгенерированных звуковых дорожек.
Как она работает?
Синтезированные дорожки не идеальны. Именно это и используется в нашем проекте.
Если вы внимательно посмотрите на диаграмму сгенерированной аудиодорожки, то она не будет такой же гладкой как у «живой» записи. Все равно будут какие-то всплески. Будут отличаться сематические связи. Это все создает эффект роботизированной речи.
Главная проблема тут дискретизация. Мы записываем речь, как аналоговый сигнал, но компьютер для обработки и хранения переводит этот сигнал в двоичный код. Из-за этого идут искажения. Чем выше частота дискретизации, тем плавнее будет речь синтезатора. Однако из-за этого увеличивается объем данных, «вес» аудиодорожки. Другими словами, ее становится сложнее сгенерировать.
Есть порог, за которым дефекты синтезированной речи удастся уловить только человеку с абсолютным слухом, или хорошо обученной системе, над созданием которой мы и работаем.
Как идет реализация проекта?
Сейчас работы уже в завершающей стадии. Мы предложили алгоритмы, и теперь нам нужно их реализовать в готовой программе, которую нужно будет апробировать и оценить результаты. Все это мы планируем сделать к лету.
Дальше мы планируем улучшать нашу систему. Пока мы заявили точность определения синтезированного голоса в 85%. Дальше мы хотим повысить точность.
Есть ли какие-то промышленные или финансовые партнеры, которые уже заинтересовались этой работой?
Да, но пока детали раскрывать преждевременно.