Студенты и исследователи, работающие в междисциплинарных и совсем новых научных направлениях, часто сталкиваются с проблемой: как искать информацию в научных источниках и базах данных, если общий понятийный аппарат еще не сложился, и авторы для описания одних и тех же процессов используют разные термины — чаще всего, заимствованные из различных областей знания.

Между тем, объем публикуемой научной информации увеличивается каждую секунду — при этом данные становятся все более хаотичными и запутанными. Без понятной и технологичной системы навигации в этом потоке легко потеряться и упустить что-то действительно важное.

Разработкой такой системы занимаются доцент Института дизайна и урбанистики ИТМО Ольга Кононова и аналитик центра юзабилити и смешанной реальности, преподаватель магистерской программы «Цифровые технологии умного города» Дмитрий Прокудин. Их проект «Технологии извлечения и интеллектуального анализа данных в научных исследованиях» направлен на создание учебно-методического комплекса, который поможет студентам лучше ориентироваться в междисциплинарных областях, которые являются достаточно новыми и в которых терминологическая база еще не устоялась.

Разработка учебно-методического курса реализуется в рамках грантового конкурса для преподавателей магистратуры Благотворительного фонда Владимира Потанина. Предварительные результаты и планы проекта 2020-2021 были представлены на XXIII Международной объединенной конференции «Интернет и современное общество», которая проходила в ИТМО в июне этого года.

Благотворительный фонд Владимира Потанина. Источник: fondpotanin.ru
Благотворительный фонд Владимира Потанина. Источник: fondpotanin.ru

Синтетический метод

Лежащая в основе проекта методология разрабатывается с 2018 года — в рамках трехлетнего научного проекта РФФИ. Предложенный авторами комплексный подход к анализу контекстного знания с помощью различных инструментов информационных технологий позволяет более эффективно искать, извлекать и обрабатывать информацию из открытых баз данных и научных источников. А разработанная ими типология контекстов помогает лучше ориентироваться в неструктурированных и неформализованных областях знаний.

«Наш метод, который мы назвали синтетическим, позволяет ориентироваться в тех новых, междисциплинарных областях, в которых еще не устоялась собственная терминологическая база, не разработан тезаурус. Это является необходимым в том случае, когда достаточно молодое междисциплинарное направление еще не устоялось, как правило, исследователи используют различные термины — и не всегда возможно их сопоставить. При поиске научной информации исследователь опирается на ту терминологию, к которой он привык, а многие авторы придерживаются в своих работах другой терминологии. И если они не перекрываются между собой, то при поиске научной информации теряются значительные массивы данных», — рассказывает один из авторов и исполнитель проекта Дмитрий Прокудин.

Дмитрий Прокудин. Фото из личного архива
Дмитрий Прокудин. Фото из личного архива

Он добавляет, что с помощью разрабатываемого метода специалисты намерены показать, как можно изучить развитие терминологической базы того или иного научного направления.

«Это дает более полную картину этого направления, его состояния, тренды его дальнейшего развития», ― подчеркивает Дмитрий Прокудин.

Программное обеспечение в помощь

Учебно-методический комплекс включает в себя не только авторскую методику контекстного анализа массивов научных текстов, но и каталог специального аналитического программного обеспечения и различные сервисы поиска, экспликации, кластеризации и статистической обработки информации, а также ― учебное пособие по работе с этими программами.

«На всех этапах ― от поиска ресурсной базы до построения трендов ― мы используем современные аналитические системы. При этом мы сформировали ряд принципов, которых мы придерживаемся при выборе и рекомендациях к использованию ПО, ― комментирует Дмитрий Прокудин. ― Основной — это доступность для любого исследователя и студента. То есть это бесплатное ПО, достаточно простое для освоения магистрантами любых направлений подготовки и образовательных программ. Как правило, для их использования не требуется глубоких познаний в программировании. Вместе с тем, использование предлагаемого комплексного подхода к анализу междисциплинарных направлений исследований формирует устойчивые навыки владения широким спектром информационных технологий и предусмотренные образовательным стандартом компетенции самостоятельного выполнения научной работы, анализа неструктурированных текстовых данных».

Dublin Core. Источник: webgroupco.com
Dublin Core. Источник: webgroupco.com

Он отмечает, что в рамках проекта исследователи предложат каталог компьютерных программ, которые предназначены для экспликации и анализа контекстного знания. Также будет добавлено подробное описание: типы контекстов, которые обрабатывает каждое конкретное программное обеспечение, и его основные функции. По словам Дмитрия Прокудина, это позволит исследователям более рационально выбирать программу под конкретные задачи.

Каталог построен на модели метаданных Dublin Core — семантической сети основных понятий, позволяющей не только структурировано описать основные характеристики программного обеспечения, но и представить каталог в машиночитаемой форме. Такой каталог может быть интегрирован в научное пространство на принципах открытой науки и использоваться исследователями и студентами вне зависимости от их привязки к конкретным институциям.

Новая дисциплина

Источник: shutterstock.com
Источник: shutterstock.com

Разработанные в ходе выполнения проекта учебные материалы и электронный каталог будут встраиваться в дисциплину «Информационные технологии в научной деятельности», которую ведет Дмитрий Прокудин для направления «Прикладная информатика» магистерской программы «Цифровые технологии Умного города». С 2021 же года новый учебный курс заменит эту дисциплину.

«Если раньше курс был нацелен только на то, чтобы сформировать прикладной аппарат владения технологиями, с помощью которых можно найти какую-то информацию и оформить результаты исследования, то сейчас мы включаем туда и технологии контекстного анализа. Сейчас разрабатывается структура курса и учебное пособие, уже с сентября мы начнем его апробировать в рамках существующей дисциплины», — говорит Дмитрий Прокудин.

В будущем авторы проекта планируют разработать электронный курс — его можно будет использовать в подготовке магистрантов и аспирантов по любым направлениям и не только в Университете ИТМО.