Digital для гуманитария: соавтор «Нейронной обороны», физик-математик Иван Ямщиков — о том, как изучают язык и культуру с помощью алгоритмов и почему это непросто

В Университете ИТМО проходит неделя цифровой гуманитаристики, которая включает лекции, дискуссии и воркшопы, посвященные междисциплинарным коммуникациям и исследованиям. Открыл череду выступлений физик-математик Иван Ямщиков, который выступил с докладом «Анализ данных, воспроизводимость и живые люди». Сотрудник института математики и естественных наук имени Макса Планка, ведущий подкаста «Проветримся!» и соавтор проекта «Нейронная оборона» рассказал о том, как алгоритмы и анализ данных могут помочь в гуманитарных исследованиях. Основные тезисы лекции в материале ITMO.NEWS.

Иван Ямщиков — физик-математик, окончил физфак СПбГУ, затем профильную магистратуру в Швеции, после чего работал в компании «Яндекс», где занимался анализом данных. Затем Иван защитил диссертацию в Германии по специальности «Прикладная математика» и последние три года работает в институте математики и естественных наук имени Макса Планка в Лейпциге и в компании ABBYY. Иван занимается обработкой текстов на естественном языке и их генерацией. Несколько лет назад вместе с Алексеем Тихоновым он создал проект «Нейронная оборона», с генеративными текстами в стиле Егора Летова. В настоящее время Иван продолжает исследовать творческие алгоритмы и явления на стыке искусства и искусственного интеллекта.

Доклад Ивана Ямщикова «Анализ данных, воспроизводимость и живые люди»

Карл Поппер говорил, что утверждение только тогда допустимо считать научным, если для него можно придумать эксперимент, который способен опровергнуть первоначальную идею. Мысль философа заключалась в том, что любое научное утверждение должно содержать в себе некую лакуну сомнения. Факт существования контраргумента не дает науке закостенеть и превратиться в догму. Однако в физике эта идея жила и до Поппера, а вот в гуманитарные дисциплины концепция эксперимента укладывается с трудом. Поэтому есть целые научные группы, которые занимаются методологией и дизайном экспериментов в науках о человеке.

На этот счет существует один изящный пример, который демонстрирует те трудности, с которыми сталкиваются, например, социологи, когда пытаются провести сбор информации или опрос. Итак, как сделать так, чтобы люди вам врали, но вас это не пугало? Например, вы проводите тест и хотите узнать то, о чем человек не очень расположен говорить: о религиозных взглядах, склонности к экстремизму, симпатии к крайне правым течениям или сексуальной ориентации.

Оказывается, можно предложить следующий механизм опроса: возьмите мешочек с черными и белыми шариками в пропорции: 4/5 черных и 1/5 белых, и предложите испытуемому отвечать правду, когда он вытягивает белые шарики. При том, что мы видеть цвет шариков не будем. Эта система дает некую степень защиты человеку: мы не знаем, какой шарик он вытащил, а значит не знаем «правды о нём».

Доклад Ивана Ямщикова «Анализ данных, воспроизводимость и живые люди». Фото: ITMO.NEWS

Соответственно, у нас есть основания полагать, что человек будет следовать предложенным правилам и говорить правду, когда шарик в руке белый, и врать, когда чёрный. При таком дизайне эксперимента вы не можете точно узнать предпочтения каждого отдельного человека, но можете реконструировать правильный процент распределения ответов в группе. Получается простой и изящный способ точнее узнать о каких-то болезненных для общества темах.

Предсказания, истории и контркультура

Следующий аспект, который стоит рассмотреть — это то, насколько хорошо и качественно мы на самом деле можем что-то предсказывать. Американские исследователи поставили себе задачу: при помощи анализа данных предсказать, является ли событие историческим или нет. Они взяли международные протоколы США, сводки от министерств иностранных дел с выборкой 50/50, то есть половина событий из этих сводок ретроспективно оказалась исторической, а половина — нет. Затем они на таких данных обучили нейросеть, которая пыталсь отличить историческое событие от не исторического. Тогда точность итогового алгоритма составила 80%. Хорошо это или плохо? В целом, хорошо, но проблема в том, что это искусственные условия. Если взять реальную историю, то на одно значимое событие, которое сыграет историческую роль, приходится 1100 проходящих. При таком раскладе сил предсказательная сила полученной модели сводится к нулю.

Еще один важный пункт — это нарратив. Так сложилось, что люди любят рассказывать истории, причем настолько сильно, что сами начинают в них верить. Социологи, работавшие с дикими племенами, сформулировали на основании этого утверждения такой принцип: «Не спрашивай, если не хочешь, чтобы тебя обманули». Дело в том, что абориген ни за что не признается вам как постороннему человеку, что не знает, почему нужно бить в там-там именно четыре раза, поэтому он обязательно что-то ответит, но скорее всего просто придумает свою историю.

То же самое работает в политике: каждый политик рассказывает свою историю, а в итоге побеждает тот, чья задумка интереснее, и кто смог красочнее ее изложить. Как именно «бороться» с тем, что в английском принято называть «narrative bias», пока не очень понятно. В рамках любого исследования поведения живого человека человек мыслит историями.

Теперь давайте поговорим о языке. Есть научные исследования, которые демонстрируют, как противоборствующие стороны одного политического конфликта используют разные языковые средства и синонимы для демаркации «своих и чужих». Например, в англоязычной прессе палестинские и израильские медиа используют разное слово для обозначения стены, разделяющей эти государства. Израильтяне называют ее — security fence, а палестинцы — apartheid wall. Соответственно, по этим запросам Google выдает разные фотографии, казалось бы, одного объекта. В русском языке, наверное, самый яркий пример — это «на Украине» и «в Украине». Если объектом нашего исследования является язык или текст, то мы всегда должны помнить про то, что язык — это не только способ коммуникации, но и метод социальной демаркации, и средство пропаганды, и ещё много других «и».

И наконец, последний аспект нашего разговора — это культура в широком смысле. Культура как набор некоторых символов и смыслов, который постоянно меняется под воздействием исторических обстоятельств. Простой пример: автор лягушонка Пепе похоронил своего персонажа, потому что тот стал использоваться американскими правыми в качестве мема. Проблема в том, что мемы так не работают. Автор может сколько угодно «хоронить» свое творение, но, если оно стало частью культуры или субкультуры, оно начинает жить само по себе. Коллективное сознание формирует культурные наслоения, которые могут менять изначальную концепцию до неузнаваемости. Это тоже затрудняет постановку гуманитарных экспериментов.

Все эти факторы влияют на развитие цифровых гуманитарных наук, с одной стороны, а с другой являются достойными предметами для более глубокого исследования. Я очень рад, что ИТМО занимается этими темами и обсуждает их, к примеру, в рамках недели Цифровых Гуманитарных наук.

К началу

Digital для гуманитария: соавтор «Нейронной обороны», физик-математик Иван Ямщиков — о том, как изучают язык и культуру с помощью алгоритмов и почему это непросто

Антонина Никулина

Похожие новости

Центр цифровой гуманитаристики ИТМО представил итоги первой «DH Week» на конференции в Нью-Йорке

Команда ИТМО вошла в «серебряную лигу» на турнире подразделения Google, которое борется с травлей в сети

Фестиваль «Кампус»: можно ли заниматься Computer Science в России — рассказывает доцент Университета ИТМО Владимир Ульянцев