По словам Юрия, он сам интересуется кино и любит смотреть фильмы по вечерам. Однажды он выбирал фильм на «Кинопоиске» и наткнулся на киноленту с почти таким же высоким рейтингом, как у «Зеленой мили».
«Фильм оказался ужасным. И тогда я подумал: а вдруг все эти рейтинги — обман? Можно ли им доверять в выборе кино? Раньше рейтинг фильма на „Кинопоиске“ формировался на основе оценок, которые ему выставляют пользователи портала. Однако, когда сайт выкупил „Яндекс“, они что-то поменяли в системе онлайн-рейтингования, и поэтому, вероятно, какие-то не самые достойные киноленты встали на один уровень с действительно качественным кино», — сказал программист.
Чтобы решить озвученную проблему, он решил создать свой алгоритм, который сможет рейтинговать не только уже выпущенные в прокат фильмы, но и те, что только начинают снимать. Идея воплощалась в несколько этапов. Сначала нужно было выделить параметры, от которых зависит качество фильма: например, страна производства, режиссер, актеры, бюджет, наличие спецэффектов и так далее. Потом необходимо было проанализировать много данных о фильмах, чтобы понять, какие значения должны быть у параметров, чтобы кинолента стала популярной. Так, если новый фильм соответствует этим параметрам, то он будет успешным, а если нет — значит, нужно что-то менять или не надеяться на большие кассовые сборы.
Для того, чтобы сделать выборку параметров успеха киноленты, Юрий воспользовался набором данных, собранным другими специалистами с англоязычного портала о кино IMDb. Он отправлял запрос и в «Яндекс» с просьбой предоставить хотя бы часть данных «Кинопоиска», потому что они находятся в закрытом доступе, но получил отказ. Для создания алгоритма студент использовал методы анализа данных и машинного обучения. При этом он «обучал» свою программу на 80% данных, полученных с IMDb, а на остальных 20% программа отрабатывала свои «умения». Проанализировав около 4 000 фильмов, алгоритм ошибался в среднем на 0,4 пункта, выставляя рейтинги кинолентам из этих 20%. Ошибки выявлялись при сравнении реальной оценки фильма на портале с той, которую получала программа.
Кроме того, Юрий Волков сделал много неочевидных выводов о том, где, кто и как снимает самые рейтинговые фильмы, о которых он расскажет на Science Slam. Например, где производят высокорейтинговые киноленты: в Великобритании, США или Франции? Какой режиссер снимает их? Когда снимали самые длинные фильмы? Ухудшается или нет сейчас качество кинематографа в соответствии с рейтингами?
«Если ответы на эти и другие вопросы будут у создателей кино, то они смогут еще на стадии согласования сметы для производства узнать, будет ли фильм популярным. Если нет, то, значит, надо что-то изменить, может быть, нанять другого режиссера или перенести съемки в другую местность. Ведь сегодня киноиндустрия активно развивается, на нее тратятся огромные деньги, появляются новые течения, и зрители готовы платить, чтобы увидеть качественную ленту. Поэтому нельзя разочаровывать их, нужно контролировать качество итогового продукта», — прокомментировал разработчик.
Больше всего, по словам участника Science Slam, на качество фильма влияет длительность ленты, актерский состав и количество лайков на их страничках в Facebook, год выпуска и некоторые другие параметры.
Теоретически, на основе этого алгоритма можно создать приложение, которое будет собирать и анализировать информацию о фильмах со всего Интернета, а не только с одного сайта. Однако для этого придется как-то научить программу отличать ложные сведения от достоверных. Например, для сайта IMDb создатели фильмов предоставляют точную и актуальную информацию, уверен Юрий Волков, на которую и опирается его алгоритм.
Пока он работает над этой программой ради удовольствия. Для дальнейшего ее продвижения может потребоваться помощь, и на Science Slam разработчик надеется получить реальные отзывы потенциальных пользователей.
«Сегодня с помощью машинного обучения, анализа данных и, в частности, нейросетей, можно анализировать все, что угодно, вычленяя при этом полезную информацию. Например, когда вышел последний эпизод „Звездных войн“, один программист опубликовал статью об исследовании, в котором он сопоставил отзывы о нем из Twitter по тональности и сделал вывод, что фильм скорее понравился зрителям, чем нет. Сегодня поисковые системы могут заранее подсказать, какой фильм вам посмотреть, сопоставляя ваши интересы. Например, если Маше и Пете понравился фильм „1+1“, они посмотрели его и поставили ему высокий балл, то тогда, если Маше понравился фильм „Король говорит“, то, скорее всего, он понравится и Пете. Наши родители обсуждали кино уже после просмотра, мы же стремимся узнать как можно больше о нем до его начала», — сказал Юрий Волков.