Image Matching Challenge — ежегодный конкурс от Google Research для специалистов по машинному обучению. Участникам нужно придумать решение для создания 3D-реконструкции на основе фотографий, загруженных пользователями в Google Maps. Полученная по результатам конкурса технология будет использоваться не только в картах (в функции Street View), но и в других направлениях, развиваемых в Google. В частности, в проекте сохранения культурного наследия в виде цифровых копий (посмотреть уже оцифрованные памятники архитектуры можно на сайте проекта).
Конкурс проходит уже в четвертый раз — и с каждым годом уровень сложности растет. Если в прошлом году участникам предлагали соединить только два изображения в одну панораму, то в этот раз требовалось придумать и воплотить полноценное решение для 3D-визуализации в Google-картах на основе фотографий, загруженных пользователями.
В основе решения задачи лежит технология Structure from Motion (SfM), то есть фотограмметрия на основе множества фотографий одного и того же объекта, снятого с разных ракурсов. Сложность задачи не только в том, чтобы отсортировать изображения, но и правильно их позиционировать относительно друг друга, чтобы получить объемную модель. Аспиранту факультета систем управления и робототехники ИТМО Джаафару Махмуду и аспиранту факультета информационных технологий и программирования Аммару Али удалось обойти почти 500 команд и войти в топ-10 золотых медалистов.
Главной сложностью участники соревнований называют ограничение по времени — на задачу отводилось всего 9 часов. Это повлияло на подход к решению. Вместо того, чтобы анализировать сразу весь массив данных (что было бы более эффективно, но потребовало бы больших временных затрат на тренировку алгоритма), команде пришлось создать отдельную поисковую систему, которая отбирала изображения попарно. В итоговом решении использовался целый комплекс технологий: двоичный поиск, локальную нейронную сеть и геометрическую модификацию визуализации с учетом её внутреннего пространства.
Сначала аспиранты разработали нейронную сеть, которая анализировала ракурс и позиционирование всех фотографий из датасета (всего было обработано 1500 файлов). Причем алгоритм обрабатывал не только оригиналы изображений, но и перевернутые набок, то есть их горизонтально ориентированные копии. Это позволило ввести еще одно дополнительное измерение — что, по словам участников, помогло добиться большей аккуратности при дальнейшем совмещении фотографий друг с другом. Затем поисковый алгоритм отобрал пары изображений с наибольшим совпадением ракурса и расположения объекта на фото. И затем уже из этих парных изображений собиралась итоговая 3D-модель.
В качестве демонстрации технологии аспиранты создали 3D-модель главного корпуса ИТМО. Они сняли около 35 фотографий фасада с разных углов и ракурсов. Поисковый алгоритм автоматически идентифицировал и сгруппировал похожие изображения ― этот корпус стал базой для генерации 3D-реконструкции. Отобранные фотографии были несколько раз обработаны с помощью технологий оптимизации и алгоритма определения положения камеры при съемке, что позволило более аккуратно позиционировать изображения по точкам координат в пространстве 3D-сцены.
Джаафар Махмут и Аммар Али участвуют в международных соревнованиях в таком составе не первый год. В 2022-м они также боролись за победу на Image Matching Challenge ― тогда им удалось войти в топ-30 лучших команд и завоевать серебряную медаль. По словам аспирантов, секрет их успеха ― в объединении компетенций: Аммар — специалист по машинному обучению, Джаафар же занимается компьютерным зрением. Участники уже не первый год занимаются научно-исследовательской работой. Аммар ― старший инженер-исследователь MTS AI, а Джаафар несколько лет работает над индустриальными проектами в лаборатории «Биомехатроники и энергоэффективной робототехники» ИТМО.
«Я изучаю локализацию и картирование для мобильных роботов. Так что 3D-реконструкция изображений и позиционирование робота в процессе его движения — как раз то, чем мы, в том числе, занимаемся в наших проектах. Задача становится особенно сложной, когда мы пытаемся достичь точности, используя множество фотографий с разным освещением, ракурсом, положением в пространстве и так далее», — комментирует Джаафар Махмуд.
Аммара Али отмечает, что ему в принципе интересно работать с технологией SfM, так как она открывает возможности сразу в нескольких областях.
«Это был не первый мой опыт с технологией SfM. Я изучаю машинное обучение, это и был мой вклад в решение задачи на конкурсе. Мне проблема показалась интересной, но не то чтобы очень сложной. Любую проблему можно решить с помощью комплексных решений, тут же задача состояла, по сути, в базовой классификации изображений. Но интересен именно потенциал технологии SfM, например, в виртуальной и дополненной реальности. Ну и для других применений: от беспилотных автомобилей до продвинутой робототехники», — заключает он.