Почему ты стал работать над технологией детектирования?
Сейчас существует немало областей, в которых детектирование успешно применяется. Это, например, медицина, военная индустрия, безопасность и даже развлечения. Например, без детектирования вы бы не смогли обзавестись собачьими ушами и длинным языком, «наложив» на свое лицо один из забавных фильтров Snapchat. Если говорить о безопасности, на ум сразу приходит детектирование лесных пожаров с помощью зонда с камерой, которой куда легче заметить возгорание, нежели человеку в вертолете.
Когда я писал бакалаврский диплом, моей задачей было научить камеру видеть человека на статичном фоне, чтобы он не сливался с ним, а также попробовать приложить на него 3D-модель. Диплом я получил, а исследование осталась. Сейчас я работаю над двумя модулями: стабилизацией изображения, оптимизацией параметров камеры и детектированием. Изначально это должно было быть программное обеспечение, с помощью которого можно было бы искать на видеоряде различные объекты, в том числе людей — распознавать их лица, глаза, нос, рот, уши, даже руки и эмоции. Но научить можно не только этому: даже в самом банальном смартфоне сейчас есть камера, распознающая лицо и, возможно, руку. У этой технологии есть куда больший потенциал, чем просто возможность сделать удачную фотографию.
Каков потенциал у разработки?
Мне хочется, чтобы технология была полезной. И первое, что приходит в голову, — безопасность. Элементарный пример: на большинстве улиц есть камеры, где-то их очень много. Почему бы не использовать их по максимуму? Предположим, у нас вечер пятницы. По улице идет компания подвыпивших парней, и им хочется куда-то выплеснуть негативные эмоции. А по той же стороне улицы, навстречу компании, предположим, идет девушка. Взбудораженную компанию, как правило, видно издалека: очень редко ребята «навеселе» идут тихо и по прямой траектории. Мы можем научить нашу камеру детектировать антисоциальное поведение, чтобы пути порядочного гражданина и потенциально опасных людей не пересеклись. С помощью программного обеспечения камера может «понимать», сколько на улице человек, какое время суток и какой день недели. И в том случае, если одной камере удалось уловить намек на опасность на одной стороне улицы, то другая камера сможет уведомить человека миганием лампочки или звуковым сигналом, что стоит свернуть с пути.
К сожалению, детектирование не заработает без устойчивого и спокойного изображения. Поэтому я работаю над тем, чтобы сделать эффективнее технологию стабилизации изображения. Как правило, сейчас стабилизацией занимаются после съемки, смещая проблемные кадры. В нашем случае это не работает — нам нужно качественное изображение без тряски в реальном времени.
Почему твоя работа может стать успешной?
Если говорить о технологии детектирования, изначально она пришла в индустрию из-за границы. Де-факто у нас нет достойных российских аналогов подобному программному обеспечению. А все мы знаем, что сейчас нужно как-то выкручиваться и заниматься импортозамещением, пока есть такая возможность. Так что усовершенствованная технология — это несомненный козырь.
А какова ситуация с зарубежными аналогами?
Сейчас заграничных аналогов для детектирования и распознавания изображений огромное количество — используются нейронные сети, опорные точки на изображении и так далее. Intel, например, выпустил 3D-камеру с датчиками для распознавания в кадре рук и лица. Однако сделать идею максимально полезной ребятам в Intel не удалось, ведь камера применяется в домашних условиях для видеоигр, чатов и создания трехмерных моделей.
Что тебе нужно сейчас для работы?
Сейчас у меня есть три рабочих инструмента — камера, объект и код, который мне надо написать и прокачать по максимуму. Суперкрутая камера с датчиками дальности и глубины изображения мне сейчас не нужна: я хочу, чтобы моя программа была универсальной и могла работать как на обычной компьютерной «вебке», так и на телефоне, который снимает видео качества 4K.
Возможно, ты видел ролик с поездкой на Tesla, оснащенной технологией автопилотирования. Программа распознает и классифицирует объекты. Есть ли между твоей технологий и технологией, используемой Tesla, что-то общее?
Tesla используют другую технологию, которая должна заставить машину, самолет или беспилотник работать так, чтобы они никому не навредили. Моя задача другая: камера с помощью программы должна понимать, где и в каких обстоятельствах она находится. Алгоритмы, по которым работают обе технологии, имеют небольшое сходство, но суть и назначение у них разные.
Почему в свое время тебя заинтересовала вся эта история с детектированием и распознаванием объектов?
Когда я заканчивал школу, я узнал об одной необычной интернет-игрушке — программе «Акинатор» (джинн, который пытается узнать, какого человека или персонажа вы загадали — прим ред). Меня поразило то, что этот виртуальный джинн практически не ошибается и почти не дает погрешности в своих ответах. Почему же так происходит? Ответ и прост, и удивителен: Акинатор способен обучаться, будучи не навороченной нейросетью, а лишь формулой распределения вероятностей. И почти 10 лет своего существования этот джинн обучается, запоминая все те вопросы, которые ему задает публика ради развлечения. За это время у него сформировалась очень солидная база, на которую я мечтал бы взглянуть. В общем, знакомство с Акинатором дало мне важную для моего дальнейшего развития мысль: я понял, что машины могут обучаться. Это оказалось поразительным открытием, ведь формула, по которой ты решал задачки, практически ожила, став сайтом, который знают миллионы.
Как ты хочешь донести свою идею до зрителей на Science Slam?
Главная мысль, которую я хочу донести до каждого, в том, что компьютеры могут видеть и видеть осмысленно. Конечно, не как мы с вами, зато они могут втихаря делать скриншоты и фото с вами, отправляя их злоумышленникам, пока вы об этом даже и не догадываетесь… Конечно, они этого не делают, пока на них не установят шпионское ПО. Я хочу рассказать, что окружающие нас камеры — это не только Большой Брат, но и Большой Друг, которого мы можем использовать во благо. Если знать как.