Зачем объединять ИИ и робототехнику
Робототехника — междисциплинарная наука, она объединяет в себе механику, электронику и системы управления. Чтобы спланировать маршрут робота и управлять его движениями, специалистам нужно иметь хорошую математическую подготовку и разбираться в алгоритмах. Без правильно разработанных алгоритмов оптимизации робот не сможет спланировать траектории движения и последовательность шагов, особенно если на пути есть препятствия.
Алгоритм управления основывается на точной математической модели робота ― она описывает его состояние, геометрию и динамику. На основе модели алгоритм рассчитывает движения робота и его взаимодействие с окружающей средой. Иными словами ― чем точнее будет построена математическая модель, тем эффективнее будет реальный робот, которого вы разработаете.
Чтобы построить точную математическую модель, надо досконально учесть ключевые геометрические параметры (например, массу, инерцию, трение, мощность приводов, крутящий момент, а также показатели эффективности приводов и сенсоров). Для робота, изолированного от окружения, создать точную модель просто. Но задача принципиально усложняется, если от робота требуется физически контактировать с объектами среды ― особенно если она неизвестна.
«Можно построить точную модель, например, для робота-манипулятора, который сваривает автомобильный кузов. Основание робота зафиксировано, окружение детерминировано, то есть мы заранее знаем, что будет происходить. Поэтому можем создать точную модель робота и окружения, далее просчитать траекторию сварочного факела и реализовать простую задачу следования по ранее рассчитанной траектории. Но если нужно создать мобильного робота, например шагающего или передвигающегося на колесах по городу, или робота-манипулятора для кухни, согласно традиционной парадигме нам нужна модель окружения. Но для недетерминированного, априорно неизвестного и постоянно меняющегося окружения невозможно сделать точной модели», — говорит профессор практики, сотрудник международной лаборатории «Биомехатроники и энергоэффективной робототехники» факультета систем управления и робототехники ИТМО Иван Борисов.
Для решения задач проектирования роботов как систем используют технологии искусственного интеллекта. Например, алгоритмы градиентной и глобальной оптимизации, а также нейросетевые подходы ― в том числе обучение по большим датасетам или обучение с подкреплением. Эти методы помогают автоматизировать процесс проектирования, исследуя пространство решений за человека, решать задачу синтеза политики движения, а также задачу восприятия роботами окружающей среды.
Как ИИ упрощает проектирование робота
Одна из задач робототехники, которую уже помогает решать искусственный интеллект — проектирование дизайна робота в целом или отдельных его частей, например, механизмов или приводов.
Раньше проектирование зависело только от навыков конкретного специалиста: если дать одну и ту же задачу нескольким инженерам, они решат ее по-разному. В итоге получатся разные дизайны, оптимальность которых гарантировать сложно.
Сейчас эту проблему помогает решить использование методов численного проектирования и генеративного дизайна. Главная задача — автоматизировать процесс проектирования и помочь специалистам подробнее изучить пространство решений и быстрее найти оптимальные конструкции роботов. Численное проектирование может основываться как на алгоритмах оптимизации, так и на нейросетевых подходах — например, обучении с подкреплением или с учителем. Численное проектирование помогает найти оптимальные параметры робота, чтобы улучшить его характеристики, а генеративный дизайн — генерировать структуры механизмов и оптимизировать их.
Обучение с подкреплением хорошо зарекомендовало себя в индустрии. Например, с его помощью компания Disney Research вместе с учеными швейцарской высшей технической школы Цюриха объединила художественную анимацию дроида из «Звездных войн» и физическое моделирование двуногого робота.
Репозиторий с исходным кодом «Росток», который создали сотрудники лаборатории «Биомехатроники и энергоэффективной робототехники» ИТМО, решает задачу генеративного дизайна неполноприводных адаптивных захватных устройств. Технология учитывает заданные инженером параметры и ограничения для дизайна робота, находит между ними баланс и комбинирует из них больше разных вариантов. Так проектирование получается более быстрым (по сравнению со скоростью человека) и математически обоснованным. Готовые дизайны проверяются в симуляторе, и в зависимости от эффективности движения и взаимодействия с окружением каждому варианту выставляется «оценка». Чем она выше, тем больше шансов, что алгоритм порекомендует инженерам собирать именно этот вариант.
Похожим методом ученые ИТМО улучшили свою предыдущую разработку — мобильного прыгающего робота. Раньше его конструкция использовала подшипники — из-за них устройство было более жестким, менее подвижным, а при падении часть энергии деформировала твердые звенья. С помощью генетических алгоритмов оптимизации исследователи выяснили, что лучше заменить подшипники на гибкие сочленения. Забирая всю энергию прыжка на себя, они защищают конструкцию и возвращают часть рассеянной при соударении энергии. Эти изменения позволяют квадропедам, антропоморфным роботам и коллаборативным роботам-манипуляторам быть более энергоэффективными, переносить ударные нагрузки и адаптироваться к неровностям подстилающей поверхности.
Кстати, оба этих исследования ученые ИТМО впервые представили на международной конференции по интеллектуальным роботам и системам International Conference on Intelligent Robots and Systems (IROS 2024). Это крупнейшее мероприятие входит в рейтинг конференций CORE и относится к самым престижным (уровень А). В этом году IROS проходила с 14 по 18 октября в Абу-Даби.
Как ИИ помогает роботам «видеть»
Компьютерное зрение — важная часть конструкции робота, которая помогает ему самостоятельно строить 3D-карту окружения и прокладывать маршрут, обходя препятствия. Но без искусственного интеллекта заставить машину «прозреть» слишком дорого, долго и неэффективно.
Почему «видение» оказалось одним из сложных процессов для роботов, еще в 1980-х годах объяснил профессор Университета Карнеги-Меллон Ханс Моравек. Парадокс, который позже назвали его именем, гласит: вопреки распространенному мнению высококогнитивные процессы (например, игра в шахматы или го) требуют относительно небольших вычислений ― а значит вполне доступны роботам. При этом низкоуровневые сенсомоторные операции (зрение и восприятие, управление телом и его координация) требуют огромных вычислительных ресурсов.
С низкоуровневыми сенсомоторными операциями легко справляются даже дети, а вот у роботов с такими действиями как раз возникает много проблем: взаимодействие с окружающими предметами забирает у машины гораздо больше усилий, чем даже очень сложная интеллектуальная игра вроде го.
Преодолеть парадокс Моравека помогает развитие искусственного интеллекта. Сейчас инженеры собирают новый или берут готовый датасет, где изображения размечаются по категориям и признакам — например, буквально: это кошка, а это человек. Для создания карты окружения и планирования маршрута робот использует лидары, камеры и другие сенсорные технологии, а обученная нейросеть помогает «понять», какие предметы находятся вокруг. Если на пути попадается что-то неизвестное, машина может попытаться классифицировать объект, используя похожие изображения из своего датасета.
Но искусственный интеллект помогает роботу не только различать элементы окружения, но и ориентироваться в сложных средах, например, среди зеркал и стеклянных дверей. Такие поверхности отражают объекты и пропускают свет, из-за этого робот может некорректно распознать препятствия и неверно оценить расстояние.
Исследователи международной лаборатории «Биомехатроники и энергоэффективной робототехники» ИТМО под руководством профессора Сергея Колюбина уже разработали систему 3D-картирования на основе глубоких нейронных сетей и эго-движения камеры (то есть движения самой камеры в пространстве относительно окружающих объектов). Эксперименты в помещении со стеклянными перегородками показали, что разработка точнее подсчитывает расстояние до объектов и создает 3D-карту помещения, чем другие решения на базе нейросетей и камеры RGB-D, которая выдает расстояние до объекта и его цвет.