Всем привет! Меня зовут Аммар Али. Я закончил Тишринский Университет в Сирии и получил грант на обучение в России, поступив в магистратуру ИТМО на факультет информационных технологий и программирования. Сейчас я учусь в аспирантуре, занимаясь задачами, связанными с машинным обучением в области компьютерного зрения.

Почему ИИ?

До приезда в ИТМО я не работал с ИИ, но теперь увлекся этой сферой. Моя научная работа в ИТМО посвящена разработке системы помощи водителю, которая по состоянию человека и по окружающей обстановке должна генерировать персональные рекомендации для различных сценариев. Разными аспектами этой технологии я занимаюсь с 2021 года. В частности, в 2023 году проект продолжался благодаря гранту Российского научного фонда (РНФ).

Изначально моей целью была разработка системы мониторинга состояния водителя, которая способна фиксировать, например, сонливость или факты отвлечения от дороги. Модели искусственного интеллекта в ней используются для обнаружения различных типовых действий ― приема пищи, питья или курения, а также для оценки состояния ремня безопасности, позы водителя и степени его концентрация на дороге с помощью простой RGB-камеры.

После завершения первого этапа я сосредоточился на обнаружении жизненно важных показателей водителя. На втором этапе я применил искусственный интеллект для динамического анализа окружающей среды, чтобы оценить безопасную скорость и создать 3D-карту для помощи водителю.

На данный момент исследовательская часть проекта завершена, но я продолжу работу в рамках кандидатской диссертации.

Соревновательный путь

Состязаниями по разработке алгоритмов машинного обучения я заинтересовался еще в магистратуре.

 

Еще в 2021 году Аммар Али завоевал свой первый приз в конкурсе Национального управления океанических и атмосферных исследований США. Тогда ему удалось разработать наиболее эффективную модель прогнозирования ошибок в данных навигационных космических аппаратов на основе информации о параметрах солнечного ветра. Особенность модели была в том, что свой прогноз она строила, анализируя данные в режиме реального времени (таково было условие организатора конкурса).

Хотя в самом первом конкурсе, где я участвовал, основным мотиватором был денежный приз (15 тыс. долларов США за первое место), я быстро понял, что соревнования хорошо прокачивают способность решать новые проблемы и заставляют познакомиться с последними исследованиями в заданной области. Конкурсы положительно влияют и на основную учебную и научную деятельность ― получая такой опыт, потом удается лучше анализировать проблемы, строить базовые показатели и в целом решать задачи намного быстрее. Поэтому сделав небольшую паузу, чтобы написать магистерскую диссертацию, уже в аспирантуре я продолжил регулярно участвовать в подобных инициативах. Чтобы искать актуальные для себя задачи, я постоянно мониторю новые предложения на DrivenData, Kaggle, DSWorks, AICrowd и ods.ai.

Самый сложный, но в то же время интересный аспект соревнований ― то, что решение приходится искать в условиях жестких ограничений по времени и ресурсам. Необходимо укладываться в дедлайны, рассчитывать собственные возможности и в целом работать в гораздо более жестких условиях, чем те, которые предлагают коммерческие компании своим рядовым разработчикам.

Поучаствовав в разных состязаниях, я выработал свой собственный подход к подготовке. На базовом уровне собираю все последние достижения в нужной области, изучая open source решения. Маловероятно, что за два месяца соревнований кто-то сможет представить принципиально новое решение с нуля, а open source дает хороший старт. Далее идет фаза мозгового штурма, которая позволяет улучшить и уточнить базовый инструмент, применив дополнительные методы и стратегии.

Аммар Али. Фото из личного архива собеседника

Аммар Али. Фото из личного архива собеседника

Условия и команда

Особое внимание я уделяю задачам в сфере компьютерного зрения, поскольку разбираюсь в ней лучше, чем в любых других областях ИИ. Как правило, личный интерес и определяет, буду ли я участвовать в конкретном соревновании. При этом, конечно, учитываю время, которое необходимо потратить на разработку решения.

Я часто участвую один, но готов присоединиться и к командам. Например, в IMC 2022 и 2023 от Google Research участвовал с другом Джафаром Махмудом ― также аспирантом ИТМО с факультета систем управления и робототехники. У Джафара большой опыт в некоторых новых для меня областях, а успешное сочетание компетенций и есть залог успеха. В 2023 году оно позволило нам войти в ТОП-10 медалистов IMC, в сжатые сроки мы смогли предложить оптимальный алгоритм полноценной 3D-реконструкции на основе пользовательских фотографий для Google-карт.

AI Journey

В прошлом году уже в третий раз я принял участие в AI Journey Contest от Сбера.

 

В 2021 году Аммар Али занял первое место в треке AITrain. Участникам трека нужно было разработать алгоритм, который с помощью методов машинного зрения мог бы определять опасные объекты на железной дороге и предупреждать о них машиниста поезда. В качестве входных данных использовались фото, полученные с камер на электропоезде. А год спустя Аммар смог победить сразу в трех треках AI Journey Contest из четырех ― работая при этом в одиночку, а не в команде.

В последнем AI Journey Contest я записался сразу на два трека. Еще два ― RecSys и PersonalAI ― меня не заинтересовали, поскольку были посвящены рекомендательным системам. А на участие в RescueAI у меня уже не осталось времени, хотя задача и была построена вокруг потенциально интересных биологических данных.

В итоге мне удалось занять первое место в конкурсе по распознаванию языка жестов, получить бронзовую медаль в соревнованиях по разработке мультимодальной ML-модели для диалога с пользователем и специальный приз в категории HumanEval.

Что касается распознавания языка жестов, мое решение основано на технологии MViT и tiny архитектуре, которая подходит для быстрой оценки на легких устройствах. Сама архитектура представляет собой энкодер 3D-трансформер — для улучшения результатов я использовал различные образцы, этапы мультиобучения, итеративную проверку и сложные критерии разделения данных. Решение должно было соответствовать нескольким ограничениям, например, требовалась возможность запуска модели дважды в реальном времени на устройствах ЦП, что усложняло использование дополнительных приемов или ансамблевых методов.

Базовым уровнем была оценка 0,72/0,69 в публичной/приватной таблице лидеров, а мое решение достигло 0,84/0,83, что на 10% улучшает точность примерно для 1 тыс. различных жестов. Разрыв между решениями, занявшими первое и второе места, составил около 2%.

Кстати, решение с трека EqualAI, вероятно, попадет и в мою докторскую диссертацию. Будет интересно добавить в свою систему помощи водителю функцию распознавания языка жестов, чтобы расширить возможности общения с ним окружающих людей.

Автор: Екатерина Дерик