Чтобы обрабатывать большой объем корпоративных документов и строить на их основе базы данных, нужно точно распознавать текст и его структуру. Обычно для этого используют алгоритмы автоматизации — это программное обеспечение, которое считывает текст и идентифицирует его отдельные элементы: заголовки, абзацы и другие. Однако у существующих инструментов в этой сфере есть недостатки: например, программа для оптического распознавания символов Tesseract не умеет определять структуру текста, а решения на основе больших языковых моделей (например, от OpenAI) плохо работают с объемными документами и «теряются» в контексте и структуре. Кроме того, при работе с открытыми сервисами велик риск утечки конфиденциальных данных, которые могут содержаться в корпоративных документах.

Разработчики Института ИИ ИТМО разработали инструмент, компенсирующий недостатки известных решений. Они создали библиотеку для обработки данных DocuMentor, которая позволяет с высокой точностью распознавать и извлекать иерархическую структуру документов, идентифицируя различные элементы внутри: заголовки, таблицы, изображения, формулы. Сервис работает с наиболее распространенными форматами документов: PDF (тексты и сканы текстов), DOCX и языком разметки для форматирования текстовых документов Markdown. В дальнейшем авторы планируют «научить» программу обрабатывать и другие форматы документов.

Библиотека преобразует документы в машиночитаемые JSON-файлы (текстовый формат обмена данными, основанный на JavaScript), которые содержат информацию о структуре документа: заголовках, абзацах, таблицах и других элементах. «Размеченные» документы можно использовать в системах поиска — в частности, они применяются при создании чатов-ассистентов для сотрудников крупных компаний.

В основе библиотеки — большая языковая модель для оптического распознавания изображений vlm dots OCR. Также разработчики дополнили решение инструментами по автоматизированному сбору и структурированию DOCX и считыванию текстового слоя из PDF и построили дополнительные алгоритмы, чтобы улучшить качество распознавания документов на каждом этапе: выделении отдельных элементов внутри документа, распознавании заголовков разного уровня, извлечении стилей, размеров шрифтов и исправлении ошибок, сделанных vlm dots OCR при выделении структуры.

Исследователи проверили, насколько точно система обрабатывает документ и анализирует его структуру, и сравнили с популярными аналогами Dedoc и Marker. DocuMentor совершает ошибки при распознавании символов в 1,3% случаев, а при распознавании слов — в 2,5%. Это примерно в 6-10 раз меньше ошибок при анализе текстов и в 2-6 раз меньше ошибок при анализе сканов PDF-файлов по сравнению с аналогами. Также DocuMentor с высокой точностью определяет расположение элементов в PDF-файлах — около 98% для обычных текстовых PDF и 94% для сканов.

Сервис можно интегрировать в любые продукты для распознавания и анализа структуры документов. Например, создатели планируют внедрить программу в мультиагентную систему ProAGI для разработки ПО. Фреймворк станет одним из инструментов, который агент сможет использовать для обработки PDF-файлов.

«Преимущество нашей библиотеки в том, что мы впервые поэтапно построили алгоритм извлечения из документа максимального объема информации о его структуре при минимальном количестве ошибок. Нашим инструментом заинтересовались не только ученые, но и коммерческие компании, где с помощью библиотеки можно обрабатывать документы во внутреннем контуре. Понимание структуры документа — ключевой навык для разработки систем поиска и построения баз знаний для интеграции ИИ в рабочие процессы», — рассказал один из разработчиков библиотеки, инженер Института ИИ ИТМО Михаил Ковальчук.

Михаил Ковальчук. Фото: Дмитрий Григорьев / ITMO NEWS

Михаил Ковальчук. Фото: Дмитрий Григорьев / ITMO NEWS

Библиотека доступна под открытой лицензией BSD-3.