В чем проблема
Важный этап перед любым машинным обучением или построением каких-либо предсказательных моделей — это всестороннее описание системы. Полная информация о наночастицах позволит не только прогнозировать свойства наноматериала с большой точностью, но и искать наноматериалы с интересными свойствами среди всех возможных вариантов.
Сегодня нет системного подхода для описания частиц: всё происходит вручную через анализ большого количества статей, а свойства зачастую описывают усредненно, на качественном уровне или же вообще не берутся в расчет. Это стало одной из ключевых проблем для применения искусственного интеллекта в области материаловедения. Информации о поверхностной морфологии частиц практически нет, данные о форме категориальные (например, просто указывается «сфера» или «куб») и никак не отражают каких-либо особенностей, размеры представлены как среднее значение по всей выборке. Из-за этого алгоритмам машинного обучения сложно обработать информацию, сделать выводы и улучшить свою работу.
Как алгоритм помогает материаловедам
Метод, созданный учеными ИТМО, позволяет решить все эти проблемы. Алгоритм анализирует изображения частиц с электронного микроскопа и выделяет из них информацию о признаках в количественном формате. Однако эти значения не совсем очевидны для восприятия: нет такого, что первое число — это форма, второе — размер и так далее. Вся эта информация представлена в сжатом виде и скрыта от пользователя вплоть до восстановления из этих параметров исходного изображения. Близкая аналогия — сжатие нейросетями изображений лиц в наборы параметров, каждый из которых отвечает за свое, не всегда интерпретируемое человеком, свойство лица.
«Описанный в нашей статье алгоритм на основе массива чисел, выделенного из изображения и описывающего его свойства, находит по базе похожие частицы. Он понимает, что такое распределение по морфологии (размеру, форме, структуре) и определяет другие параметры. Например, когда мы пытались искать кубические структуры в нашей базе, алгоритм выдавал результаты, действительно наиболее похожие на запрос», — рассказывает инженер химико-биологического кластера Никита Серов, первый автор исследования.
Для первой части исследования ученые самостоятельно создали базу наноматериалов на основе текстурных характеристик карбоната кальция. Вещество выбрали неслучайно: синтетические процедуры (информация о концентрации, температуре синтеза, времени для выдерживания, получаемых объемах) описать просто, материал демонстрирует огромное разнообразие форм и размеров. Так, живые организмы используют карбонат кальция для построения панцирей сложных структур, защитных оболочек и многого другого. Внося небольшие изменения в синтез, можно получить широкий набор самых сложных морфологий.
Метод проверили и на наночастицах золота. Материал очень распространен в фотонике и доставке лекарств, так как в этих направлениях структура играет ключевое значение. Данные для исследования ученые взяли из научных статей — алгоритм сработал.
Можно даже нарисовать
Разработанный подход позволяет осуществлять еще и обратный дизайн материалов: исследователь задает свойства, а алгоритм показывает способ получения. Сделать это можно и с помощью рисунка. Например, если исследователь хочет найти определенную морфологию, то он может в графическом редакторе нарисовать соответствующую фигуру, добавив поверхностную структуру («загогулинки», «шипики» и другое) искомой частицы. При этом размерные пропорции должны соответствовать настоящему материалу. В базе данных все картинки автоматически конвертируются в контурные изображения, за счет чего осуществляется такой поиск.
«По сути наш подход работает, как поиск в Google или Яндекс: по информации из запроса алгоритм меньше чем за минуту находит похожий наноматериал и предлагает способ его получения, то есть синтетические процедуры. Тем не менее мы продолжаем оптимизировать алгоритм для более быстрой работы на больших объемах данных», — добавляет Никита Серов.
Применение и дальнейшие исследования
Подход позволит в автоматизированном режиме получать данные о частицах для их изучения, сравнения с другими веществами, разработки новых соединений. Например, морфология влияет на поведение частицы в живом организме: форма — на иммунитет и метаболизм клеток, структура — на оптические свойства. Все эти знания можно использовать в биомедицине, фотонике и многих других областях.
Исследователи еще работают над предсказательными моделями и проверяют их точность. Сейчас база данных и алгоритм находятся в открытом доступе на GitHub в формате кода. По словам Никиты Серова, он постарался сделать его максимально понятным для пользователей. В будущем это всё будет представлено в виде веб-сайта.
Подробнее об исследовании: Nikita Serov, Vladimir Vinogradov Inverse material search and synthesis verification by hand drawings via transfer learning and contour detection (Small Methods, 2022).