— Недавно вы с коллегами опубликовали статью о новом алгоритме для банковской сферы, который определяет неблагонадежных клиентов банков по их тратам. Не могли бы вы рассказать об этой работе?
— Это часть большого исследования, которое проводилось у нас на мегафакультете в рамках гранта РНФ и при партнерстве с банком «Санкт-Петербург».
Вообще, так называемый кредитный скоринг, то есть оценка кредитоспособности, имеет большую историю. Ей занимались еще итальянские банкиры в Средние века, оценивая, кому стоит давать денег, а кому нет. С оговорками можно сказать, что из этого родилась современная статистика, из которой потом и произошло машинное обучение.
Банк передал нам анонимизированные данные клиентов, которым он уже выдал кредит. К сожалению, не все эти заемщики кредит вернули, хотя скоринговая система банка посчитала их надежными. И банку было интересно, почему.
— Как в ответе на этот вопрос может помочь машинное обучение?
— Нам предоставили данные о том, на какие категории товаров клиенты тратили деньги с кредитной карты и сколько денег приходилось на каждую из категорий.
Наша первая гипотеза заключалась в том, что тех людей, которые заем не отдали, можно разделить на две категории. Условно, первая категория — это недобросовестные клиенты, которые берут кредит и уже знают, что его не вернут, или просто не думают, что его придется отдавать, или надеются, что само как-то потом образуется. Вторая категория должников — это люди, которые нарушили договор из-за каких-то внезапно возникших жизненных проблем, повлиявших на их финансовое благополучие, а иначе бы они деньги отдали.
Здесь важно словно «внезапно», потому что это событие было плохо предсказуемо, и не вина скоринговой системы, что она разрешила выдать кредит таким заемщикам, тогда как людям из первой категории стоило отказать. Что принципиально, мы не знали точно, кто из не вернувших кредит недобросовестный, а кто стал жертвой случайности.
Если с помощью методов машинного обучения мы сможем вычленять тех неплательщиков, которые берут кредиты легкомысленно или откровенно недобросовестно, то система оценки кредитоспособности станет работать лучше.
— Как это сделать?
— Тут мы вводим еще одну гипотезу, непосредственно следующую из того, как мы разделили неплательщиков. По ней, поведение клиентов, которые не возвращают деньги злонамеренно, меньше похоже на поведение тех, кто возвращает деньги. То есть финансовое поведение человека, который обдуманно взял кредит, но не отдал его из-за форс-мажора, должно больше походить на структуру трат человека, вернувшего долг банку.
Вооружившись этой гипотезой, мы разработали алгоритм на основе автоэнкодера — нейросетовой модели, которая позволяет строить низкоразменые представления объектов, содержащих наиболее значимые характеристики. Грубо говоря, на входе у нас есть суммы трат клиентов банка по 13 категориям. Дальше автоэнкодер должен придумать способ эти данные сжать, чтобы у него было двухмерное представление о том, что он получил на вход.
Это представление должно ему позволить корректно восстановить исходный код. Мы также добавили при обучении автоэнкодера регуляризацию для этого внутреннего представления, чтобы внутренние представления о добросовестных клиентах были бы максимально похожи, чтобы они «схлопнулись» в стереотипный портрет добросовестного заемщика.
У нас был риск, что данные для проблемных клиентов будут неотличимы от данных добросовестных, что не будет прослеживаться четкой закономерности, но по факту она есть. Для алгоритма эти категории были хорошо отличимы. При этом случайные должники менее отличимы, злостные — больше.
Регуляризация не брала в расчет тех, кто кредит не вернул. Благодаря этому мы определили, кто из не вернувших кредит стал жертвой форс-мажора, а кто — нарушил договор условно «намеренно». Отфильтровав «случайных» должников, скоринговая система может лучше определять тех, кто кредит не вернет, что является свидетельством в пользу истинности обеих наших гипотез.
— А на какие закономерности опирался алгоритм? Какие связи между тратами и кредитоспособностью он нашел?
— К сожалению, точного ответа на этот вопрос мы не знаем. Автоэнкодер строит довольно слабо интерпретируемые представления о данных. Нам очень сложно понять, какие именно параметры влияют на классификацию. Тем не менее эта классификация работает, и мы с ее помощью можем отличить злостных неплательщиков от добросовестных клиентов.
— Но, если алгоритм не дает ответа на вопрос, какие траты более подозрительные: большие расходы на автосервис или частые походы в рестораны — как банки могут доверять его выводам?
— Отличный вопрос! Вообще, проблема с интерпретируемостью возникает по причине того, что люди, пытающиеся внедрить искусственный интеллект в ту или иную сферу, не доверяют этому же самому искусственному интеллекту. Им хочется держать руку на пульсе и понимать, что эта «страшная машина» будет делать и где попытается нас обмануть.
Мне кажется, эту проблему можно обойти: если люди будут видеть, что искусственный интеллект работает хорошо, постоянно и без значительных сбоев, то они осознают, что не обязательно точно понимать каждое действие компьютера. Главное, что он работает. Это не снимет все вопросы, но поможет нам с ними смириться. Мы же не до конца понимаем, как работает наш мозг, но его выводам склонны доверять.
Кроме того, потенциально мы можем достигнуть большей интерпретируемости, просто в этом исследовании такой задачи не стояло.
— А можно ли обмануть эту систему?
— Конечно. К примеру, мы работали с данными о тратах с кредитных карт клиентов, которым уже одобрили кредит. Там был пункт «выдача наличных в банкомате». Мы не знаем, на что они их тратили, однако, к счастью, в нашем случае таких трат было немного, клиенты предпочитали пользоваться картой. Впрочем, в дальнейшем, если внедрять систему, то она также будет это учитывать.
— Как эту систему можно внедрить в работу банков?
— Наша гипотеза построена только на поведении клиентов, которым уже одобрили кредиты. При этом мы не знали, как они тратили деньги с других счетов, какую получали зарплату и так далее. Нам было важно помочь банку понять, как отличаются добросовестные клиенты от недобросовестных, и возможно ли провести разграничение с помощью методов машинного обучения.
Но совершенно не обязательно работать только с данными о тратах с кредитной карты и только на предоставленных нам 13 категориях. То же самое можно провернуть и с другими данными. Тут важна сама концепция того, что можно вычленить добросовестных клиентов, случайных должников и злонамеренных. Опираясь на это, уже можно совершенствовать банковские системы. Тем более что банки, выдав кредитную карту, собирают информацию о том, как человек тратил деньги.
Конечно, наше исследование еще не дает 100% гарантии, что эти категории всегда легко вычленить. Мы могли переобучить нашу нейросеть или сделать вывод верный только для определенного набора клиентов банка «Санкт-Петербург». Но если все будет работать и на других данных, то банкам будет легче выявлять неблагонадежных клиентов на стадии одобрения кредита. Также можно создать систему, которая будет анализировать поведение человека, которому уже одобрили кредитную карту. Если она заметит неладное, то клиента можно предупредить о том, что если он не изменит своего поведения, то рискует кредит не вернуть.
— Это немного напоминает вмешательство в дела клиента. И так часто говорят, что корпорации следят за людьми. Не получается ли тут, что нейросеть будет выступать как нянька, которая, условно говоря, будет «бить» человека за то, что он купил лишний круассан?
— Прекрасный вопрос! Постараюсь вступиться за алгоритм. Он создается для того, чтобы банк выдавал меньше заведомо плохих кредитов, а также старался сделать уже выданные заведомо плохие кредиты хоть чуть-чуть лучше. Это в наших общих интересах, ведь когда банк не получает деньги по кредиту, то расходы ложатся на добросовестных заемщиков. Они платят больший процент по своим займам.
Таким образом, помогая банку снизить количество плохих кредитов, мы косвенно помогаем снизить процентные ставки. Так что собранная информация конвертируется в экономическую выгоду для всего общества. Это одна часть проблемы.
Вторая часть связана с тем, что система может ошибаться и человек правда может «получить по рукам» за то, что он взял по кредитке круассан. Но эта проблема решается большим количеством данных. Чем больше информации будет у нейросети, тем лучше она будет искать взаимосвязи и тем меньше ее будет смущать наш условный круассан.