Как Data science помогает вести бизнес и определять редкие заболевания — в докладах экспертов на Women in Data Science

Перенять опыт успешных женщин, предложить необходимые связи в индустрии и сплотить сообщество — с такими целями на протяжение уже нескольких лет проходит международная конференция Women in Data Science (WiDS). Идея зародилась в Стэнфордском университете, а сейчас мероприятие проходит в более чем 150 местах по всему миру. Девятого марта конференция прошла и в Петербурге: в Высшей школе экономики выступили эксперты индустрии из Яндекса, Biocad и других компаний. Мы записали главное.

Как Data Science помогает бизнесу принимать правильные решения

Елена Чернышева, Яндекс

Как устроена работа аналитика в Яндексе? Однозначный ответ дать невозможно: деятельность специалистов очень различается в зависимости от масштаба подразделения и спецификации конечного продукта. Сам Яндекс состоит из различных маленьких компаний, среди которых Яндекс.Еда, Яндекс.Такси, Яндекс.Недвижимость. Все они — отдельные бизнес-юниты со своими правилами игры. Многие ожидают, что в Яндексе налажена общая инфраструктура, но на самом деле ее почти не замечаешь. За пять лет я проработала в нескольких подразделениях, и они сильно отличаются друг от друга.

К примеру, начинала я в Яндекс.Справочнике. Это специальный сервис, который собирает данные об организациях. Главное условие работы для составителей — хоть как-то узнать о существовании организации (допустим, по адресу), а остальное мы соберем и аккумулируем из различных источников. Допустим, Яндекс узнал, что по такому адресу есть Высшая школа экономики. Колл-центр сюда звонит и узнает, чем она занимается более подробно. Отдельный алгоритм идет в сеть и узнает сайт этой организации. Отдельно мы направляем сотрудника, который фотографирует здание организации с улицы. В итоге у нас складывается карточка организации благодаря данным из различных источников.

Чем у нас занималась отдельная команда аналитиков? В первую очередь разрабатывала метрики для различных алгоритмов. К примеру, в течение полугода наши специалисты искали правильную метрику для удобной кластеризации, чтобы организации не дублировали друг друга.

Абсолютно по-другому построена работа с аналитикой в подразделении Яндекса, отвечающего за поисковую систему: там работают около 2000 человек, все они программисты и аналитики. Последние часто выступают в роли менеджеров, которые рассчитывают новые метрики и думают, как улучшить существующие.

С чем может столкнуться молодой специалист, если пойдет искать работу в подобной большой компании? Возможно, в компании уже будет работать подобный отдел с проверенными механизмами и построенной схемой работы, а возможно, и нет. Руководители таких организаций часто не понимают ценность аналитики данных. Они считают, что готовый алгоритм должен давать готовое решение, и ожидают чудо.

Мой совет — начинайте работу в компаниях с уже сформировавшейся культурой, чтобы посмотреть, как это устроено и за какие деньги можно получить первый результат от работы. Так вы сразу увидите, каким эффектом обладает исследование данных. Возьмем к примеру компанию Amazon. Сейчас у них 2,6 миллиардов визитов в месяц, а конверсия в покупку — 9 %. Если у сайта вырастет конверсия, он заработает дополнительные 52 миллиона долларов. Следовательно, Amazon’у сейчас очень выгодно взять специалистов по data science.

Работая аналитиком данных в большой компании, вы будете заниматься узкой задачей, которая приведет к небольшой прибыли и наладит отдельную работу сервиса. Например, специалисты в Яндекс.Такси недавно вывели алгоритм, который помогает водителям быстрее добраться с работы домой. За час до конца работы они оповещают систему, и она подбирает им маршруты, близкие к дому.

С одной стороны, вы погрузитесь глубоко в технологии и сможете делать исследование узкой сферы, с другой – будете далеки от бизнеса и продукта.

Абсолютно другая ситуация при работе в маленькой компании. Ваш спектр задач невероятно расширится: модель для бизнеса, метрики, исследование пользователей, больше задач на моделирование и на прогнозирование. Будете максимально приближены к продукту и сможете влиять на все важные решения, которые принимаются в компании.

Вообще, организации часто не понимают, как принимать решения на основе данных. Ценная характеристика data science – это не отчеты с дашбордами и мониторингом, а инструменты прогнозирования и моделирования. Они как раз помогают бизнесу рассчитать, как быстрее добиться цели.

На новом рабочем месте не позволяйте людям говорить, что вам делать, так как их представления могут быть устаревшими. Это вы должны объяснять людям, как ваши инструменты им помогут.

Как анализ данных компанию захватывал

Екатерина Гудкова, Biocad

Biocad — это международная инновационная биотехнологическая компания полного цикла. То есть мы проводим исследования, разрабатываем лекарственные препараты, самостоятельно выводим их на рынок и занимаемся логистикой перевозок в аптеки. Полный цикл накладывает определенную специфику на то, кто и как работает в компании. В первую очередь, людей очень много — более 2000, и больше половины занимается либо моделированием лекарственных средств, либо поиском белковых соединений и путей их взаимодействия, либо прогнозированием работы препаратов в теле животного и человека. Естественно, в компании много современных лабораторий и нового оборудования, которое генерирует свежие данные каждую секунду.

Как представлен IT-отдел? Мы скорее помогаем остальной компании в вопросах доставки препарата конечному потребителю и занимаемся непосредственно тремя задачами. Во-первых, вычислительной биологией. С помощью компьютеров мы можем смоделировать взаимодействие молекул с телом человеком и обойтись без тестов.

С самого начала отдел продаж и маркетинга говорит, на каком рынке препаратов мы хотим выпустить продукт. Дальше подключаются исследователи, которые смотрят, что за болезнь, какие можно найти решения. Онкологические препараты тяжело моделируются: они часто отторгаются организмом, и это не всегда просто предвидеть. Когда есть решение, нужно подобрать молекулу, которая обезвредит заболевание и полностью уничтожит. В самом начале мы не знаем точно, что это будет за молекула, но в мире существует ограниченное количество веществ. Дальше моделируем и смотрим, как будут взаимодействовать белковые соединения между собой.

Следующей задачей мы поставили прогнозирование синтетической реакции. Мы принялись за обучение некоего цифрового химика, который определяет, как пойдет реакция, сколько она будет стоить, каким будет результат. Уже на протяжении нескольких лет он помогает компании экономить деньги.

И тут мы поняли: ведь можно пользоваться подобной системой и для помощи другим отделам. Те же HR-специалисты, которые и занимаются поиском новых сотрудников, и следят, чтобы работники не уходили и пользовались базой знаний для последовательного развития. Анализ данных можно использовать в любом направлении работы компании.

Просто так взять и начать делать машинное обучение крайне глупо. Поэтому первым шагом был чистый анализ данных с мониторингом. К примеру, как работает производство? Как часто выходит из строя определенное оборудование? Как быстро коробки с сырьем переправляется из одного отделения компании в другое?

Интересные метрики нужны специалистам HR, чтобы ответить на важный вопрос: как определить, что человек выгорел и пора с ним поговорить? По этой причине почти все компании, начавшие анализ данных, начинают крутить метрики, связанные с общекорпоративными показателями: как работает человек, на кого он похож, когда уходит с рабочего места.

Тут важно оговорить один момент: нет смысла просто так за чем-то следить. Всегда должно быть определенная отметка, когда стоит начать что-то делать. В остальное время можно в принципе и не смотреть на показатели.

С появлением всех многочисленных дашбордов встает момент работы со спамом. У меня огромное количество показателей, и я не могу тратить на них весь день. Тут два момента работы с анализом данных: это либо некий ситуационный центр (я реагирую только тогда, когда показатели выше определенной точки — остальное время меня не интересует), либо я накапливаю аналитику, чтобы потом посмотреть, как было, и выдвинуть некие гипотезы постфактум.

Сейчас в Biocad мы реализуем идею электронного персонального помощника. Дело в том, что с нашими темпами роста и набором новых сотрудников сервисное подразделение не может себе позволить такой же рост, это невыгодно для компании. Соответственно, для того, чтобы поддерживать новичков необходимой юридической или финансовой информацией, нужно создавать ботов, которые будут отвечать на типичные вопросы.

Сюда же закладывается не только сервисная поддержка, но и понимание о том, что мы должны обеспечивать сотрудника только необходимым контентом. Потому что информации много, и ее нужно подстраивать под каждого отдельного сотрудника.

Перспективы применения машинного обучения в здравоохранении будущего

Варвара Цурко, старший научный сотрудник ИПУ РАН и старший data scientist в компании IQVIA

Сейчас машинное обучение проникает во все области нашей жизни. И распознавание речи, и машинный перевод, и распознавание изображений. А медицина — это наука, которая сама по себе очень зависит от данных: в зависимости от принятой информации специалист ставит человеку определенный диагноз и прописывает определенное лечение. Врачей можно сравнить алгоритмами — они обучаются на историях болезни пациента. Чем больше пациентов у врача, чем лучше память и чем лучше он умеет обобщать и искать в данных скрытые закономерности, тем больше мы ему доверяем.

Но в чем-то машина выиграет — в отличие от человека, она сможет работать с большими данными. К примеру, проанализирует все истории болезни с определенным заболеванием и выделит признаки.

Поэтому сейчас мы говорим о новом цифровом здравоохранении. Я условно могу поделить его на четыре главных направления. Во-первых, это здоровый образ жизни — различные приложения и девайсы мониторят наши действия и предлагают обратную связь. К примеру, они рекомендуют время ухода ко сну, отслеживают количество потребленных калорий, а в будущем смогут определять уровень стресса по пульсу, движениям или голосу.

Второе направление работы машинного обучения в здравоохранении — это мониторинг симптомов, когда человек заботится о своем самочувствии и не хочет пропустить условный «сигнал тревоги». Современные тенденции направлены на то, чтобы встраивать биосенсоры в смартфоны и умные часы, которые могут снимать электрокардиограмму и сообщать владельцу о случаях отклонения от нормы. Кроме того, встроенные в часы акселерометр и гироскоп определяют падение человека. Если он после падения не двигается более 60 секунд, то устройство вызывает помощь. Классификация электрокардиограммы, определение аномалий и факта падения — все это задачи анализа данных.

Кроме того, благодаря функциям распознавания изображений появились мобильные приложения, которые сохраняют историю изображений сфотографированных родинок и сообщают о случаях отклонения от нормы.

Мониторинг симптомов может перейти и к диагностике. Это третье направление работы машинного обучения — сбор и обработка полезной информации для врача. К примеру, существует операция шунтирования сосуда при атеросклерозе артерий. Она известна очень большим процентом рецидивов: спустя полгода атеросклероз у больного возникает снова. Анализ данных о пациенте уже сейчас помогает предсказать отдаленный исход операции до или сразу после проведенной операции для проведения нового лечения. Если прогноз отрицательный, операцию откладывают или проводят более продолжительную реабилитацию.

Машинное обучение также может помочь диагностировать редкое заболевание. Алгоритм, обученный на всей доступной выборке больных редким болезнью, сможет поставить диагноз лучше врача. Проблема только с несбалансированной выборкой: людей с отрицательным диагнозом во много раз больше, чем с положительным. Ее можно решить либо предварительной обработкой данных (удаление из выборки случайных объектов большого класса или искусственная генерация объектов меньшего класса в окрестности реальных объектов) или алгоритмическим подходом (назначение равных штрафов за ошибки классификации объектов меньшего класса).

Четвертое направление — это проведение медицинских исследований. Раньше, чтобы набрать 10 000 пациентов, нужно было около года и 50 медицинских центров. Сейчас достаточно установить приложение, которое само соберет необходимые данные, запишет в систему и проанализирует результаты. С 2015 года через приложение mPower удалось собрать самую большую за всю историю выборку 10 000 пациентов для исследования болезни Паркинсона. 93 % из них никогда не принимали участия в подобных акциях.

После всего этого естественным образом встает вопрос: а почему нас все еще лечат люди, а не машины? Ответов несколько:

пока машину не научили применять интуицию. Исследований много, а на дополнительное обследование надо отправлять очень точечно;
проблема сбора данных: большое количество различных заболеваний, для классификации которых нужны различные признаки;
этические проблемы: во всех ли случаях человек должен знать о наличии у него заболевания и о тяжести формы? Можно ли доверить принятие важных решений машине?
проблема определения областей использования: с диагностикой каких заболеваний лучше справится машина, а с какими — живой врач?

К началу

Как Data science помогает вести бизнес и определять редкие заболевания — в докладах экспертов на Women in Data Science

Дмитрий Лисовский

Похожие новости

Попасть в соцсети: как ученые могут использовать фото вашего обеда в Instagram

Сооснователь лаборатории Spin Unit Дамиано Черроне – о том, как Instagram поможет сделать города более социальными

Ученые предложили новый, более эффективный подход к хранению больших данных