Big Data становится еще больше

В минувшем году, по подсчетам международного аналитического агентства IDC, объем мирового рынка программного обеспечения, оборудования и сервисов в области бизнес-аналитики и работы с большими данными (Big Data) составил свыше 130 млрд долларов, что на 11% больше, чем годом ранее. В ближайшие три года продажи решений для Big Data будут только расти, прогнозируют аналитики. Активнее всего к технологии проявляет интерес банковский сектор, рынок телекоммуникаций, коммунальных услуг и страхования.

Исследованию анализа больших данных в последней отрасли посвятил свою работу студент кафедры программных систем Университета ИТМО Ярослав Полин. Аналитический проект «Big Data в страховании — области применения» он отправил на ежегодный конкурс компании «Ингосстрах», став одним из победителей. В исследовании Ярослав подробно проанализировал, как решения Big Data работают в нескольких самых перспективных на данный момент направлениях — борьбе с мошенничеством и персонализации цен полисов ОСАГО.

«Я проводил анализ текущих мошеннических ситуаций, которые, как правило, в конечном счете всегда проходят через службы безопасности компаний. В крупных компаниях имеется архив таких ситуаций, и специалисты уже могут проанализировать разрозненные данные, определив общие параметры, и в дальнейшем анализировать общий поток всех транзакций, выявляя среди них потенциально мошеннические. Примерно так это делает Visa, которая в режиме онлайн отслеживает все транзакции и находит подозрительные. Благодаря использованию таких алгоритмов компания ежегодно экономит на этом около 2 млрд долларов», — уточняет Ярослав Полин.

Университет ИТМО. Ярослав Полин
Университет ИТМО. Ярослав Полин

Просто анализ и ничего личного

Как правило, на руках у аналитиков имеется весь массив информации, включая личные данные. Однако алгоритмы с той или иной степенью точности все равно определят, кто именно совершил покупку, даже не зная имени, фамилии и пола участника операции. Похожее условие ставит «Сбербанк», который уже давно устраивает хакатоны для перспективных студентов.

«Передав этот полностью обезличенный массив данных, в ходе испытания банк просит выяснить вероятность повторной покупки или, допустим, определить пол. И это только исходя из транзакций. Не видно ни фамилий, ни имен, ни номеров карт, просто известны суммы и, например, место покупки. Эти данные нам необходимо проанализировать с помощью алгоритмов, которые мы пишем сами. Что касается „угадывания“ пола, у победителей процент попадания составляет выше 90%. Но многое зависит от постановки задач. Пол-то не очень трудно отгадать — гораздо сложнее установить вероятность повторной покупки в течение ближайшего месяца», — рассказывает студент Университета ИТМО.

На хакатонах и в реальной жизни аналитикам приходится решать совершенно разные задачи. В итоге специалисты приходят порой к неожиданным выводам. Например, после анализа большого массива данных, касающихся предоставления услуги ОСАГО, может оказаться, что люди на красных машинах попадают в аварии чаще, чем остальные, хотя на первый взгляд это совершенно нелогично, приводит пример Ярослав Полин. Однако на деле даже такая странная корреляция, выявленная аналитиками, в итоге способна повлиять на ценообразование страховой компании, оптимизацию системы выплат и, возможно, избавить ее от убытков, уточняет он.

Источник: online-credits-russia.ru
Источник: online-credits-russia.ru

В России крупные отечественные IT-холдинги, такие как Mail.Ru Group или «Рамблер», уже давно анализируют большие данные собственными силами. Не первый год работает датамайнинговое подразделение «Яндекса» — Yandex Data Factory, которое специализируется на обработке данных для крупного бизнеса. Действуют и другие более мелкие организации с похожим функционалом. В страховании, как отмечает Ярослав Полин, технология еще только развивается. Сам же студент готов продолжать работать над проблемой и развить свой проект.

«В следующем году я хотел бы поучаствовать в реальных испытаниях „Ингосстраха“, то есть не только проводить аналитическую работу, но и выявлять закономерности и искать интересные выводы уже на примере конкретного массива обезличенных данных. Если компания готова предоставить конкурсантам такой материал для исследования, будет интересно поучаствовать. Думаю, что и для меня, и для компании такое сотрудничество было бы весьма полезно», — резюмирует Ярослав Полин.