Для проведения научных исследований в химии — от разработки лекарств до создания новых материалов — важно собирать и систематизировать данные из тысяч научных публикаций. Упростить и ускорить этот процесс можно при помощи ИИ, однако существующие системы часто не справляются со сложной терминологией, разнообразными форматами данных (текст, таблицы, графики) и плохо учитывают контекст химических работ. Чтобы обучить ИИ-модели и автоматизировать проведение химических исследований, необходимо вручную собирать качественные наборы данных из научных статей.
Ученые из Центра искусственного интеллекта в химии ИТМО представили ChemX — масштабную коллекцию из 10 наборов данных, предназначенных для тестирования и улучшения систем автоматического извлечения информации из научной химической литературы. Исследователи извлекли данные вручную из более чем 1500 рецензируемых научных статей и провели их перекрестную проверку, согласно которой уровень ошибок составил менее 4%. Для этого авторы в случайном порядке отбирали 20% данных из набора и проверяли, соответствуют ли они информации из первоисточников. Система полностью открыта — все наборы данных, подробная документация и код для экспериментов находятся в свободном доступе на платформах HuggingFace и GitHub.
Библиотека ChemX мультимодальна — то есть содержит разнообразные данные, извлеченные из текста, таблиц, схем и графиков. Датасеты охватывают широкий спектр областей, связанных с наноматериалами и малыми молекулами: цитотоксичность и антибактериальную активность наночастиц, свойства нанозимов, свойства магнитных материалов, биологическую активность бензимидазольных и оксазолидиновых антибиотиков, термодинамические свойства хелатных комплексов, фотостабильность лекарственных молекул и их сокристаллов, а также проницаемость роговицы для офтальмологических препаратов.
«Сегодня искусственный интеллект активно применяется для решения широкого круга химических задач, и потому необходимость в высококачественных, достоверных данных становится особенно актуальной. Вручную мы собрали 10 специализированных датасетов, провели их экспертную проверку и на их основе оценили существующие системы для автоматического извлечения данных из научных статей. Полученные результаты показали, что современные решения пока существенно уступают требованиям практики и нуждаются в дальнейшем развитии», — отметила одна из авторов работы, инженер Центра ИИ в химии Анастасия Вепрева.
Анастасия Вепрева. Фото: Центр ИИ в химии
Авторы протестировали датасет для обучения и проверки современных больших языковых моделей (GPT-4o) и ИИ-агентов для автоматического извлечения информации. Пока методы справляются недостаточно точно с числовыми параметрами и сложными структурами — SMILES-строками (строковый формат представления молекул). При этом специализированные мультиагентные системы — например, nanoMINER, также разработанная в Центре ИИ в химии для обработки данных в области наноматериалов и нанозимов — показывают высокие результаты лишь в своей узкой области и не могут быть обобщены на другие задачи.
В дальнейшем исследователи планируют улучшить систему ChemX.
«Наша цель — разработать более универсальные интеллектуальные решения для извлечения и анализа мультимодальных научных данных. Мы стремимся создавать мультиагентные системы, способные эффективно адаптироваться к различным наборам данных в рамках одной предметной области, а также интегрировать в ИИ-пайплайны специализированные инструменты распознавания химических структур. Это позволит повысить точность работы с комплексными молекулярными представлениями и приблизит создание практичных и надёжных систем автоматизации научных исследований в химии», — рассказала одна из авторов статьи, инженер Центра ИИ в химии Юлия Разливина.
Юлия Разливина. Фото: Артур Русланович
Исследование поддержано программой «Приоритет 2030».
