По данным Социального фонда России, почти треть несчастных случаев на работе (27,8%) происходит по личной неосторожности сотрудников. Чтобы отслеживать опасные или неправомерные действия на производстве или в общественных местах, используют системы видеонаблюдения. Чаще всего видео с них отсматривают вручную, но метод не идеален: человеку сложно внимательно следить сразу за несколькими экранами достаточно долго, он может устать или отвлечься и пропустить важное событие.
Автоматизировать процесс уже помогают нейросети ― такие решения способны непрерывно фиксировать события и выделять нужное в долгом потоке видеосъемки. Но у каждой есть свои ограничения. Например, модели, представленные на российском рынке для промышленного видеонаблюдения, умеют распознавать только объекты во время съемки (например, людей, наличие касок и масок), но не способны отслеживать действия. Распознавать их умеют открытые зарубежные модели, но пока делают это недостаточно точно: обученные на датасете, собранном сотрудниками ИТМО, алгоритмы правильно распознали действия лишь в 24% случаев (результат VideoMAE) и 48% случаев (результат Hiera).
Специалисты лаборатории компьютерных технологий ИТМО разработали алгоритм под названием ActionFormer, который с точностью 80% распознает сразу десять действий: например, может отследить, когда сотрудник производства курит или принимает пищу на рабочем месте, отвлекается и разговаривает по телефону, без спросу перемещает оборудование и заходит в помещения, где находиться запрещено. Кроме того, разработка помогает предупредить саботаж камер ― когда объектив намеренно пачкают или закрывают, чтобы скрыть запрещенные действия. На многих промышленных предприятиях эти действия считаются нарушением техники безопасности, поскольку нередко могут привести к серьезным последствиям.
Алгоритм, разработанный специалистами ИТМО, состоит из двух моделей, которые анализируют последовательность изображений: одна расставляет скелетные точки на изображениях людей, а другая на их основе классифицирует действия и определяет, где находятся сотрудники предприятия. Информация обо всех неправомерных или потенциально опасных действиях попадает в общую базу данных или сразу передается на интерфейс оператора — в зависимости от требований заказчика.
Нейросеть расставила скелетные точки на изображении курящего человека
По сравнению с аналогичными решениями, которые уже есть на рынке, представленная модель легковесна, поскольку содержит относительно небольшое количество параметров (3,7 млн). Этого удалось достичь за счет использования сверточной модели: она анализирует не все изображение целиком, а лишь конкретные точки и маски объектов. Аналоги анализируют больше параметров: например, VideoMAE — 22 млн, Hiera — 73 млн, Tarsier — 10 млрд, OpenVLA — 7 млрд, но требуют больше ресурсов для работы.
Нейросеть обучали более чем на 180 тысячах кадров: для этого исследователи использовали не только датасеты из открытых источников, но и снимали видео самостоятельно.
Разработку уже используют на крупном производстве в Пермском крае. Благодаря внедрению системы на предприятии удалось в три раза сократить количество физических проверок соблюдения техники безопасности и избежать ряда серьезных ошибок. Например, с помощью алгоритма уже предотвратили неправильный ремонт оборудования ― система обнаружила, что сотрудник отвлекся на общение по телефону.
Код алгоритма находится в открытом доступе. Это значит, что обучить модель распознавать различные действия могут и сами пользователи, но для этого нужно собрать обучающую выборку.
«В будущем мы хотим обучить модель на большем числе действий. Следующая задача — адаптировать систему распознавания действий для носимых камер. Например, ее можно будет использовать в шахтах при проведении инструктажа — отслеживать, что бригада выполняет нужные действия и соблюдает правила безопасности: например, использует СИЗы, проводит работы в соответствии с инструкцией, безопасно спускается по лестнице», — рассказала руководитель проекта, кандидат технических наук, научный сотрудник лаборатории компьютерных технологий ИТМО Валерия Ефимова.
Валерия Ефимова. Фото из личного архива спикера
Кроме того, специалисты уже работают над другой версией модели, которую можно будет использовать для фиксации противоправных действий на придомовой территории в жилых комплексах. Для этого они обучили алгоритм на 150 тысячах кадров различных сценариев, в их числе ― прием спиртного на детских площадках, разгрузка грузовых машин в неположенных местах, попытки посторонних проникнуть в подъезд дома. В перспективе специалисты планируют добавить и новые сценарии, чтобы программа могла фиксировать, например, кто ломает скамейки или вытаптывает газоны. Релиз этой версии намечен на октябрь 2025 года.
Над алгоритмом работали студенты факультета информационных технологий и программирования ИТМО Анастасия Шпилева, Максим Колтаков, Георгий Петров и студент Института прикладных компьютерных наук ИТМО Руслан Зарипов.
