Как ученые предсказывают токсичность химических соединений
Чтобы разрабатывать безопасные лекарства, важно изучать токсичность молекул, из которых создают препараты. Токсичность описывается различными параметрами химических соединений. Среди них ― мутагенность, канцерогенность, повторяющееся воздействие химического агента, медикаментозное повреждение печени и многое другое. Предсказать эти параметры можно с помощью SMILES — системы правил однозначного описания состава и структуры молекулы химического вещества. На основании SMILES-описаний молекул с помощью графовых представлений, языковых моделей и химических свойств можно определить различные признаки токсичности вещества.
Сейчас, чтобы исследовать токсичность молекул, ученые используют искусственный интеллект. Например, платформа «Синтелли» позволяет химикам-синтетикам прогнозировать физико-химические, биологические и токсикологические свойства органических соединений, визуализировать массивы химических данных.
А в чем проблема?
По словам доктора химических наук, члена-корреспондента РАН и сооснователя платформы «Синтелли» Максима Федорова, сегодня ученым удалось исследовать токсичность только для порядка 200–300 тысяч соединений — при том, что на планете их известно около 200 млн, и количество соединений постоянно растет.
В качестве задачи хакатона компания предложила участникам создать модель машинного обучения, которая позволит сократить время и средства на разработку и внедрение новых лекарственных препаратов, а также уменьшить количество лабораторных животных в экспериментах и снизить риски побочных эффектов лекарств.
Участие в хакатоне приняли 112 человек из 47 регионов страны. Студенты работали над задачей в течение 48 часов и на финише представили 27 алгоритмов. По итогам конкурса определились три команды победителей. Они разделили миллион рублей, получили приглашение поступить на онлайн-программу магистратуры ИТМО «Химический софт», а также возможность стать частью команды «Синтелли» и других медицинских стартапов Медтеха. Технологическим партнером мероприятия выступила компания Selectel.
«Участие в хакатоне на стыке химии, фармацевтики и IT — шанс для студентов и молодых ученых проявить себя, применить знания в реальных задачах бизнеса, поработать в интердисциплинарной команде. Для компаний — это возможность найти новые решения и подходы. Мы также учитываем результаты участников при поступлении в нашу магистратуру и трудоустройстве в компании-партнеры. Это дает ребятам больше мотивации и стимулирует их использовать подходы инфохимии на пользу науке и медицине. Применение IT в химии позволяет находить новые лекарства, снижать затраты на поиск и исследование новых препаратов», — отметила профессор, директор научно-образовательного центра инфохимии ИТМО Екатерина Скорб.
Прочитайте также:
Какие решения представили на хакатоне
Агрегирование признаков и бустинг деревьев. Первое место на хакатоне заняла команда MML, в которую вошли студенты МФТИ Николай Кутузов и Сергей Новиков. Участники разработали модель машинного обучения, которая предсказывает 34 признака токсичности химических соединений. Для этого авторы собрали датасет на основе 20 источников со SMILES-описаниями более чем 1,1 млн молекул.
«Мы нашли эффективный и простой способ совместить много данных о молекулах воедино и применить к ним машинное обучение. Для этого мы соединили разнородные признаки из разных источников: химические (например, подсчет функциональных групп); признаки, полученные из языковых моделей, обученных на химических формулах; математические признаки, связанные с представлением графов как молекул. К этим признакам мы применили модель CatBoost — алгоритм машинного обучения для решения задач классификации и регрессии, основанный на градиентном бустинге деревьев решений. Такой алгоритм строит предсказание в виде ансамбля слабых предсказывающих моделей», — рассказал капитан команды Николай Кутузов.
Решение будет полезно химикам ― с его помощью специалисты смогут сократить количество соединений, которые нужно тестировать экспериментально при разработке препаратов, а также хемоинформатикам, чтобы строить более качественные системы автоматического создания препаратов.
Мультимодели для предсказания параметров токсичности. Второе место заняла команда «Billy QSAR», в которую вошли руководитель Лаборатории ИИ в новых материалах Университета Иннополис Руслан Лукин и студент Томского политехнического университета Борис Пякилля. Участники разработали мультимодели для предсказания 41 признака токсичности. Для этого они проанализировали более 84 тысяч молекул из 15 источников с помощью алгоритма CatBoost.
Как отмечает Руслан Лукин, преимущество подхода состоит в использовании метода atom attribution, который помогает интерпретировать параметры токсичности. Этот метод показывает, какой вклад вносит каждый атом в молекуле в предсказание модели. Сначала модель машинного обучения получает на вход молекулу и вычисляет ее свойства, например, энергию или активность. Затем для каждого атома в молекуле оценивается, насколько сильно его присутствие или свойства влияют на предсказание модели. Это происходит путем сравнения предсказаний модели с исходной молекулой и молекулами, в которых атомы были удалены или изменены. В результате вклад каждого атома в предсказание модели визуализируется на графике или с помощью 3D-модели молекулы.
Решение будет полезно сотрудникам фармкомпаний и R&D лабораторий для дизайна молекул с заданными токсикологическими свойствами, а также чтобы строить интерпретируемые QSAR модели ― такие модели позволяют специалистам по структурам химических соединений предсказывать их разнообразные свойства.
Мультитаск подход. Третье место жюри хакатона присудило команде SCD Lab, в которую вошли студенты химфака МГУ имени М.В. Ломоносова Иван Пикулин, Михаил Руденко, Владислав Ярышев, а также студентка РГГУ Анастасия Юдина.
В основе их решения — мультизадачные графовые нейросети и алгоритмы классического машинного обучения. Студенты собрали данные о 78 параметрах молекул из шести открытых источников и на их основе обучили модели, которые прогнозируют показатели токсичности, основываясь исключительно на структурных формулах молекул. По словам Владислава Ярышева, наиболее удачные модели предсказывают свойства с погрешностью в 10% ― это считается хорошим результатом как для машинного обучения, так и для фармакологии,так как уже такая погрешность позволит отфильтровывать токсичные молекулы на ранних стадиях работы. Особенность решения в том, что авторы применили мультитаск подход при создании графовой нейронной сети. Он допускает наличие неявной корреляции между различными свойствами для одной и той же молекулы. За счет этого в процессе тренировки модель может сама искать корреляции между свойствами молекул.
Решение будет полезно для дизайна лекарственных препаратов ― в частности, чтобы оценить токсичность молекул-кандидатов на роль действующего компонента.