При создании лекарств и новых материалов ученым важно учитывать не только свойства отдельных молекул, но и то, как они взаимодействуют друг с другом в составе конечной многокомпонентной системы — например, сокристалла или молекулярного комплекса. Именно от этих взаимодействий могут зависеть практически важные свойства: растворимость и стабильность лекарственных форм, прочность и структура материалов, чувствительность молекулярных сенсоров, а для биомолекулярных комплексов — сила связывания и функциональный эффект.
Для изучения молекулярных систем используют экспериментальные методы, вычислительное моделирование и все чаще — инструменты ИИ. Однако для сложных многокомпонентных систем данных пока недостаточно: они разнородны, часто плохо структурированы и не всегда подходят для обучения моделей. Поэтому одна из ключевых задач новой лаборатории — создание качественных датасетов, бенчмарков и протоколов оценки, на основе которых можно разрабатывать и сравнивать ИИ-модели.
Решением этих задач будут заниматься в новой лаборатории цифрового дизайна и моделирования макро- и супрамолекулярных комплексов ИТМО и AIRI. Исследователи разработают алгоритмы, которые помогут описывать взаимодействия молекулярных компонентов, предсказывать свойства многокомпонентных систем и выбирать наиболее перспективные комбинации для дальнейшей проверки. Для этого в лаборатории будут проводиться исследования на стыке химии и ИИ: по созданию качественных датасетов и бенчмарков для обучения и сравнения моделей, автоматическому извлечению данных из научной литературы, разработке методов аугментации (наращиванию) данных, построению химически и физически информированных моделей, предсказанию свойств многокомпонентных систем и созданию агентных ИИ-подходов для поддержки исследовательского цикла.
«Мы хотим не просто моделировать поведение отдельных молекул, а научиться работать с более реалистичными и сложными системами: комплексами, сокристаллами, биомолекулярными взаимодействиями и материалами, где важно совместное поведение нескольких компонентов. Такие исследования могут помочь быстрее проектировать новые материалы, лекарственные формы, молекулярные комплексы и системы с заданными свойствами. В перспективе это позволит сократить количество дорогостоящих экспериментов и ускорить переход от идеи к проверяемому решению», — рассказала руководитель новой лаборатории и сотрудник Центра ИИ в химии ИТМО Нина Губина.
Нина Губина. Источник: www.prostospb.team/hackathon-26
Ученые будут использовать методы машинного обучения, генеративного ИИ, графовые и табличные модели, большие языковые модели, методы активного обучения, мультимодальные представления и мультиагентные системы. Часть задач будет связана с компьютерным моделированием, то есть с вычислительной проверкой гипотез до проведения лабораторных экспериментов.
Основу команды составят исследователи Университета ИТМО и Института AIRI. Со стороны ИТМО лабораторию возглавляют инженер Центра ИИ в химии Нина Губина, директор Центра ИИ в химии Никита Серов и руководитель Группы теоретической химии в ИОХ РАН Михаил Медведев. Также в лаборатории будут работать сотрудники, аспиранты и студенты Центра ИИ в химии ИТМО, научно-образовательного центра инфохимии и смежных исследовательских групп. Со стороны Института AIRI в лаборатории будут участвовать директор Центра ИИ-разработки новых лекарственных препаратов Артур Кадурин, а также научные сотрудники AIRI Кузьма Храбров и Артём Цыпин. Кроме того, над исследованиями смогут работать студенты и аспиранты из других вузов — в частности, из МГУ, ВШЭ и РХТУ.
«Сегодня нам уже недостаточно изучать отдельные молекулы — важно понимать, как они ведут себя в составе сложных многокомпонентных систем. Особое внимание мы уделим созданию качественных датасетов и бенчмарков для обучения моделей, поскольку именно нехватка структурированных данных сегодня остается одним из главных ограничений в области. Мы рассчитываем, что результаты работы лаборатории помогут существенно ускорить разработку лекарств, функциональных материалов и перспективных молекулярных систем нового поколения», — отметил Артур Кадурин, директор Центра ИИ-разработки новых лекарственных препаратов AIDD Института AIRI.
Основная коммуникация, обсуждение результатов и совместная разработка моделей в лаборатории будут проходить дистанционно. Как подчеркивает Нина Губина, это естественный формат для такого проекта, поскольку значительная часть исследований связана с данными, кодом и вычислительным моделированием.
На первом этапе исследователи планируют подготовить верифицированные датасеты, бенчмарки и протоколы оценки для многокомпонентных молекулярных систем. На основе этих данных лаборатория будет развивать предсказательные модели и методы направленного поиска систем с заданными свойствами. В частности, одним из стартовых проектов станет создание масштабного мультимодального бенчмарка для количественного моделирования взаимодействий аптамеров и белков, который поможет стандартизировать разнородные данные и составить протоколы оценки для сравнения ИИ-моделей между собой и выявления ограничений существующих подходов.
Другой проект будет посвящен созданию базы данных по совместной кристаллизации, вручную собранной из первичной научной литературы. Работа станет эталонным ресурсом сразу для двух типов задач: автоматизированного извлечения информации из научных публикаций и предсказания образования сокристаллов. В дальнейшем разработанные решения можно объединить в агентные и мультиагентные пайплайны для полного цикла молекулярного дизайна.
