Многие знаменитые книги были сначала отвергнуты издательствами. «Гарри Поттер и философский камень» пережил 12 отказов, дебютный роман Уильяма Голдинга «Повелитель мух» отказалось публиковать 21 издательство, на долю первой книги Клайва Стейплза Льюиса о Нарнии выпало 37 отказов. Можно ли было этого избежать? Существуют ли объективные факторы, которые определяют будущую популярность художественного текста? Можно ли создать программу, которая будет предсказывать шансы на успех?

Первое издание книги «Гарри Поттер и философский камень». Источник: bloomsbury.com
Первое издание книги «Гарри Поттер и философский камень». Источник: bloomsbury.com

Такими вопросами задались ученые Университета ИТМО и Университета Оулу, работающие с нейронными сетями и технологиями машинного обучения. Они создали алгоритм, который умеет анализировать эмоциональную окраску текста и на этом основании делать прогноз — быть книге бестселлером или нет.

Эмоциональная шкала

Слова вызывают у читателя эмоции, при этом у каждого человека эти переживания будут свои. Но есть универсальные слова, реакция на которые у людей чаще всего одинаковая. При анализе теста их можно выделить как маркеры, создающие ту или иную эмоциональную окраску всего фрагмента.

Ученые взяли такие маркеры для восьми базовых эмоций, выделенных другими учеными в отдельный лексикон NRC Emotion Intensity Lexicon: гнев, ожидание, отвращение, страх, радость, грусть, удивление, доверие. И научили алгоритм выявлять в тексте именно такие слова. Таким образом, не понимая сути текста, алгоритм мог понять, какой эмоциональный окрас он имеет.

«Мы берем фрагмент текста, берем базу данных, в которой указаны маркеры тех или иных эмоций и анализируем, — рассказывает Иван Сметанников, соавтор работы, доцент факультета информационных систем и программирования Университета ИТМО. — Таким образом каждый фрагмент текста получает восемь значений, каждое из которых соответствует выраженности той или иной эмоции».

Иван Сметанников
Иван Сметанников

Эмоциональный след

Проанализировав так всю книгу, алгоритм может построить график, который создатели называют «эмоциональным следом» книги. Далее программа сравнивает этот график с другими успешными книгами данного жанра и делает вывод — зацепит ли книга любителей такого рода литературы или нет.

Ученые проанализировали почти 171 000 книг из разных баз. Результат прогноза они сравнивали с открытыми рейтингами произведений. Оказалось, что алгоритм оказался прав в 73% случаев. Также ученые попытались сделать и обратный анализ — заставить алгоритм определять исходя из эмоционального следа, к какому жанру относится произведение.

«Примерно 41% книг имеют характерные для своего жанра шаблоны, у остальных они угадываются не так явно. Если посмотреть, какие эмоциональные следы получаются по жанрам, то, например, в популярных книгах в жанре ужасов превалирует такая эмоция, как доверие, — рассказывает Иван Сметанников. — Если взять детскую литературу, то там уровень доверия резко падает ближе к финалу, а вперед выходит ожидание. У детективов первые 10% текста обычно превалирует ожидание, а потом оно проваливается вниз, чтобы вернуться в финале. Так мы можем отчетливо видеть некоторые жанровые клише».

Источник: shutterstock.com
Источник: shutterstock.com

Предсказание, а не предвидение

Несмотря на то, что алгоритм верно давал предсказание в трех из четырех случаев, ученые все же подчеркивают, что он не может гарантировать успех или неудачу того или иного текста. И дело даже не в том, что книга может попасть в те самые 27% неверных результатов.

«Потребление контента меняется, мы обучаем программу на большой базе, которая состоит из уже вышедших книг. Но вовсе не обязательно, что новые книги, построенные по тем же схемам, будут популярны. Время идет, те приемы, которые работали 10 лет назад, могут не сработать сейчас», — подчеркивает Иван Сметанников.

Тем не менее, потенциально этот концепт может быть взят на вооружение издателями, желающими проверить свое впечатление от книги с помощью машины. Потенциально сходные принципы можно использовать и в мире кино. Однако здесь потребуется более сложный набор анализируемых данных и другие алгоритмы, так как необходимо оценивать не только сюжет, но и аудиовизуальную составляющую фильма.

Работа была представлена на конференции CCRIS 2020: 2020 International Conference on Control, Robotics and Intelligent System.

Статья: Xing Wang, Shouhua Zhang, Ivan Smetannikov. Fiction Popularity Prediction Based on Emotion Analysis. CCRIS 2020: 2020 International Conference on Control, Robotics and Intelligent System, 2020/10.1145/3437802.3437831