В России сложно найти человека, родственники которого не воевали бы на фронтах Великой Отечественной. Однако далеко не у всех в домашних архивах сохранились письма с фронта. Не все могут перечитать строки, написанные родными, и увидеть, как простые люди переживали тяготы военного времени.
Команда студентов и сотрудников Университета ИТМО решила обратить внимание на эту проблему и создать проект, посвященный военным письмам и важности сохранения памяти о Великой Отечественной. В рамках проекта исследователи учат нейросеть генерировать текст, похожий на письма с фронта.
«Каждый желающий сможет получить некое письмо из прошлого и это письмо представляет собой структурированный текст, который сгенерирован нейросетями и оформлен по канонам настоящего фронтового бумажного письма, — рассказывает руководитель проекта, сотрудница Университета ИТМО Екатерина Юдаева. — Пользователь будет открывать сайт, нажимать кнопку, и нейросеть генерирует текст. Естественно, это спекуляция, но она призывает к осмыслению и обдумыванию проблем истории на более глубоком уровне. Мы начинаем не просто воспринимать информацию как какой-то контент, пусть и мультимедийный, но чувствовать его».
На основе реальных писем
Пока авторы проекта ведут сбор материалов для обучения нейросети. Образцами служат реальные письма фронтовиков, опубликованные на портале «Письма победы». Также они просят всех желающих присылать письма своих родных для того, чтобы делать выборку более репрезентативной.
Все материалы обрабатываются двумя нейросетевыми алгоритмами, которые анализируют текст и пытаются на его основе составить свой, учитывая при этом сотни миллионов параметров. Таким образом анализируется не только содержание письма, но и почерк автора. На основе собранных данных программа генерирует свой уникальный почерк.
«Мы хотим, чтобы все письма выглядели не печатным современным текстом, а именно аутентичным рукописным письмом. Чтобы на бланках, выводимых на экран, были пятнышки, кляксы, чтобы это было максимально похоже на письмо, созданное 70 лет назад», — объясняет эксперт проекта по работе с архивными материалами Юлия Алентьева.
Номер полевой почты
Первый рабочий прототип планируется создать к апрелю 2021 года. Полноценная работа проекта должна начаться в июне 2021 года, в год 80-летия начала войны. На первом этапе письма будут обезличенными, в них не будет сведений о конкретных датах. В дальнейшем, по мере поиска новых оригинальных текстов для обучения нейросети, будут добавляться возможности генерации персонализированного контента.
«Сейчас мы планируем генерировать рандомные письма. В дальнейшем, когда мы создадим крупную базу, мы сможем систематизировать письма, чтобы пользователь получал результат, исходя из запроса. Запрос может включать имя адресата. Также можно будет настроить год, из которого пришло письмо, или с какого фронта, с какой полевой почты. Кроме того, нам важно учитывать этическую сторону проекта: мы не знаем, какой текст может сгенерировать нейросеть и какие чувства от получения той или иной информации возникнут у пользователя. Эти детали требуют большого количества времени для более точной проработки», — говорит Кристина Еременко, специалист проекта по связям с общественностью.
Проект реализуется в рамках гранта Seed Grants. DH Seeds grants ― это открытый конкурс интердисциплинарых проектов на стыке гуманитарных и компьютерных наук для студентов ИТМО, инициированный Международным центром цифровых гуманитарных исследований (DH Center), рассказала директор международного центра цифровых гуманитарных исследований Университета ИТМО Антонина Пучковская.