Компьютерное зрение: следить за безопасностью и не только

По прогнозам MarketsandMarkets, рынок систем компьютерного зрения вырастет с почти $16 млрд в 2021 году до более чем $50 млрд к 2026-м. Сегодня технологию уже используют не только в промышленности и на производстве, но и в повседневной жизни ― например, в разных странах работают над системами распознавания лиц и компьютерного зрения для общественного транспорта. Такие разработки предназначены для мониторинга пассажиров, не оплачивающих проезд, отслеживания целевого использования социальных карт, контроля за сотрудниками, проверяющими оплату проезда, или непосредственно за состоянием водителей. А данные разработчики получают с камер видеонаблюдения, которых в крупных городах становится все больше.

В ИТМО с помощью камер видеонаблюдения прежде всего следят за безопасностью университета, но не только. Недавно команда Центра учебной аналитики предложила найти применение данным с камер и для того, чтобы оптимизировать различные процессы в университете. Так появился проект Computer Vision.

В первую очередь, с помощью новой системы стали анализировать загруженность аудиторий. Стандартный способ узнать, занято то или иное помещение, — проверить расписание. Но такой способ работает далеко не всегда: пары иногда проводят онлайн или заменяют работу в классе на самостоятельное задание — а значит и аудитория окажется пустой. Система, которая анализирует данные с видеокамер, позволяет понять, насколько учебное расписание соответствует действительности и как его можно оптимизировать: например, быстро определить свободные аудитории и использовать их для других активностей. Это особенно актуально в пиковые часы, когда классов на всех не хватает. При этом сотрудникам Центра качества не нужно вручную проверять, проводится ли занятие в аудитории по расписанию и искать свободные классы, теперь с этим справляются камеры.

Кроме того, эти данные используют, чтобы отражать загруженность помещений в приложении для студентов my.itmo. Пока функция доступна для главного корпуса — увидеть загруженность в процентах можно у столовой, центра управления полетами, колонного зала, холла на первом этаже, коворкинга на третьем и orange classroom. Эта информация помогает студентам встречаться и работать в более комфортном режиме, заранее выбирая наиболее свободные места.

«Идея проекта возникла у сотрудника команды учебной аналитики Дмитрия Иокши, который подал заявку на конкурс студенческих инициатив ИТМО.FUTURE. Он хотел создать раздел приложения с отслеживанием загруженности помещений. Но оказалось, что сложность проекта немного выходит за рамки ИТМО.FUTURE — и мы стали работать над проектом всей командой. Мы решили, что нашу идею можно применить не только в приложении для студентов, но и сделать что-то полезное для администрации вуза, чтобы оптимизировать бизнес-процессы», — рассказывает руководитель проекта по компьютерному зрению Алексей Сердюков.

Изображения с видеокамер для распознавания нейросетью: слева — пустая аудитория, справа — заполненная. Изображение предоставлено Алексеем Сердюковым

Изображения с видеокамер для распознавания нейросетью: слева — пустая аудитория, справа — заполненная. Изображение предоставлено Алексеем Сердюковым

Как работает проект

Для своего проекта разработчики использовали архитектуру нейросети по распознаванию объектов на изображениях YOLO (You Only Look Once) и дополнительно обучили ее на заданиях по данным с камер университета. Сейчас информация собирается с 218 камер в более чем 50 зонах в главном корпусе ИТМО на Кронверкском проспекте и в корпусе на улице Ломоносова.

Обрабатывается информация так: данные с камер видеонаблюдения попадают на сервер, откуда каждые пять секунд берется случайный снимок. Его анализирует система искусственного интеллекта, а после данные по результатам анализа попадают в хранилище: система распознает, например, сколько людей на снимке и какие у них координаты. Вся информация в виде таблиц, графиков и снимков доступна сотрудникам Центра качества организации учебного процесса на дашборде — интерактивной аналитической панели. Например, с ее помощью можно увидеть фактическую загруженность конкретной аудитории в определенный временной промежуток или сравнить максимальную загруженность аудитории с той, что была запланирована по расписанию.

«Мы начали работать над проектом около десяти месяцев назад. Самым сложным было интегрироваться с камерами и сделать техническую платформу, которая будет собирать данные с камер, проводить анализ и вносить данные в базу. Летом мы пришли к Центру качества со своим проектом, показали дашборд и стали работать над улучшением платформы в соответствии с их запросами. В сентябре сотрудники Центра качества впервые протестировали разработку, — рассказывает руководитель проекта по компьютерному зрению Алексей Сердюков. ― Стоит отметить, что наша работа направлена не на слежение, а именно на аналитику для улучшения процессов. Я хочу, чтобы этот сервис использовался не для наказания, а именно для настройки процессов сверху так, чтобы все работало».

На основании собранных данных можно узнать, сколько пар проводилось, на какие из них пришло мало людей, сколько в среднем длится пара; как часто в аудиториях что-то происходит не по расписанию; как используются коворкинги и столовые и какие зоны наиболее востребованы у посетителей. Кроме того платформа позволяет объединить и сравнить эти показатели по аудиториям, преподавателям, предметам, группам и потокам, а также факультетам. Это поможет определять, в каких местах текущие процессы не работают, и понять, что стоит изменить, чтобы лучше организовать учебный процесс.

Дашборд платформы Computer Vision. Изображение предоставлено Алексеем Сердюковым

Дашборд платформы Computer Vision. Изображение предоставлено Алексеем Сердюковым

«На основании наших данных мы можем, например, сделать вывод о том, что две пары подряд в 90% случаев никогда не проводятся полностью и, может быть, стоит уходить от расписания такого формата. Такой подход вписывается в концепцию команды Центра учебной аналитики “Университет, построенный на данных”, согласно которой принимать решения нужно на основе данных и на их основе измерять эффект от этих решений», — рассказывает руководитель проекта по компьютерному зрению Алексей Сердюков.

Кто работает над проектом

Команда проекта состоит из сотрудников Центра учебной аналитики ИТМО. В нее входят руководитель проекта Алексей Сердюков, lead engineer и эксперт по построению архитектуры системы Эдем Ибраимов, специалисты в области машинного обучения, искусственного интеллекта и аналитики Даниил Масальский и Дмитрий Иокша и backend-разработчик и специалист по машинному обучению Мичил Егоров.

Также в разработке проекта принимают участие студенты направления магистратуры «Компьютерное зрение», которую ИТМО запустил в 2022 году совместно с компанией «Napoleon IT».

«Основная задача нашей команды — это разрабатывать полезные решения на основе данных, которые будут приносить реальный результат для университета. В индустрии этот подход называется data-driven, однако по всему миру только единицы университетов, которые практикуют такой подход применительно к образованию. Использовать индустриальный опыт data-driven подхода к университету “под копирку” не получится из-за множества факторов и особенностей сферы, поэтому наша команда тестирует и внедряет в жизнь самые смелые гипотезы. Именно так и родилась идея создания сильной инженерной команды, которая будет заниматься компьютерным зрением в университете и не разработает очередного “большого брата”. По итогу 10-месячной работы мы решили множество сложных и неочевидных задач, разработали собственное архитектурное решение, которое можно легко масштабировать и легко дополнять микросервисами», — рассказал директор Центра учебной аналитики Святослав Орешин.

Святослав Орешин. Фото: ITMO.NEWS

Святослав Орешин. Фото: ITMO.NEWS

Перспективы

Сейчас команда Центра учебной аналитики уже подготовила технические прототипы аналогичных разработок и для других сценариев применения. Среди них — программа по распознаванию и анализу эмоций на крупноплановых видео (например, в Zoom) и камерах видеонаблюдения. Она поможет оценить увлеченность студентов и преподавателей на занятиях, а в перспективе ― подумать о том, как распространить практики лучших преподавателей на весь университет.

Еще один технический прототип, над которым трудятся разработчики, — программа по анализу занятости рабочих мест. Как уточняют авторы концепта, с помощью такой разработки можно проанализировать, насколько в разные часы загружен студенческий офис и на основе этих данных отрегулировать количество сотрудников, которые работают там в конкретные часы. 

В перспективе команда проекта не исключает, что разработку можно будет вывести и на внешний рынок.  

«Одно из направлений потенциального развития проекта — early customer discovery. Его суть в том, что мы приходим к людям из разных сфер бизнеса и разговариваем с ними, чтобы обсудить гипотезы применения наших разработок. Например, у нас есть гипотеза, что мы можем помогать магазинам (продуктов, одежды и другим), показывая, как внутри помещения распределяются потоки людей. Исходя из этого, мы можем помочь оптимизировать размещение товара внутри зала. Таких гипотез много, и мы хотим их исследовать. Для этого важно узнать у бизнеса, как работают процессы внутри, какие инструменты были бы актуальны — и на основании этого сформировать наиболее востребованный продукт на рынке», — делится планами Алексей Сердюков.