Чтобы создавать более точные модели машинного обучения, разработчикам нужно собирать больше данных. Однако законодательство часто запрещает передавать данные в сторонние организации — в частности, финансовым и медицинским учреждениям.
Чтобы передавать данные, содержащие конфиденциальную информацию, с разных площадок без сложной синхронизации и «смешивания», разработчики из ИТМО и Сбера разработали инструмент для обучения моделей ИИ Stalactite. Разработка реализована в рамках федерального проекта «Искусственный интеллект».
«Сейчас многие организации достигли предела, когда собственные данные для машинного обучения уже не повышают точность предсказаний. Для этого требуются полезные сведения из сторонних источников. Чтобы безопасно делиться такими сведениями, китайские и американские компании последние два года используют вертикальное федеративное обучение. В России Stalactite стал, насколько нам известно, одним из первых подобных проектов. Его также можно использовать для предсказания финансовых показателей различных подразделений организаций, которые владеют чувствительными данными и не могут ими обмениваться», — подчеркнул старший научный сотрудник исследовательского центра «Сильный ИИ в промышленности» ИТМО Николай Бутаков.
Программа написана на языке Python и использует технологию Protobuf для безопасного обмена данными. Stalactite включает несколько популярных алгоритмов машинного обучения для работы с табличными данными и изображениями в задачах регрессии и классификации, но также может применяться и для задачи рекомендаций. Кроме того, решение можно использовать для отладки, подбора параметров и настроек среды — например, в тестовом режиме.
Stalactite смогут использовать прикладные разработчики AI-систем на данных, чтобы адаптировать собственный алгоритм для работы в режиме вертикального федеративного обучения. Кроме того, инструмент подойдет специалистам даже с минимальными навыками работы с терминалом — для этого разработчики создали удобный консольный интерфейс, который запускает готовый алгоритм из терминала с помощью всего нескольких команд и ставит модель обучаться.
«Эта разработка продолжает наше многолетнее сотрудничество с передовыми исследовательскими институтами России в области совместного создания и улучшения инструментов для дата-сайентистов. В этом году мы опубликовали несколько научных работ на топовых конференциях по искусственному интеллекту, и часть из них также касалась федеративного обучения. Разработанный фреймворк может применяться в том числе для улучшения рекомендательных систем различных организаций. В результате дата-сайентисты смогут тестировать разнообразные алгоритмы вертикального федеративного обучения в области рекомендаций для безопасного обучения моделей в различных доменах без прямого обмена чувствительными данными», — рассказал руководитель Лаборатории искусственного интеллекта Сбербанка Глеб Гусев.