Шестьсот гигабайт веб-страниц

Выдающиеся способности языковой программной модели GPT-3 давно на слуху — в конце концов у нее уже есть собственная публикация в Guardian. Нейросеть может вдумчиво рассуждать на философские темы, сочинять стихи и песни, писать детективы, средневековые романы и научные статьи, колонки в журналах или пресс-релизы. В качестве датасета используются почти 600 гигабайт текстов и веб-страниц, например, вся англоязычная «Википедия», книги и поэзия (как классическая, так и современная), текстовые интернет-архивы с научными статьями, материалами СМИ, строчками кода с Github, тревел-гидами и даже кулинарными рецептами.

А в конце ноября разработчик GPT-3, компания OpenAI, выложила в открытый доступ чат-бот на основе нейросетевой модели — ChatGPT. Главная особенность новой версии в том, что она способна «понимать» контекст разговора, то есть с ней можно общаться как с полноценным собеседником — советоваться, задавать вопросы, просить поискать какую-то информацию или даже попросить ревью кода. Разработчики уже активно тестируют ее для написания технической документации, проверки кода и поиска багов.

Домашняя страница ChatGPT. Фото: Nið ricsað / wikipedia.org (CC BY-SA 4.0)

Домашняя страница ChatGPT. Фото: Nið ricsað / wikipedia.org (CC BY-SA 4.0)

Зачетное сочинение

Но никто не проверял, сможет ли GPT-3 без помощи человека написать сочинение, которое действительно будет зачтено на экзамене. Такой эксперимент решили провести студенты двух российских университетов ― Максим Дремов из Высшей школы экономики и Андрей Гетманов из ИТМО. Максим учится на филологическом факультете, Андрей — на магистерской программе «Большие данные и машинное обучение». Вместе они давно экспериментируют с нейросетями и тестируют возможности языковой модели для разных литературоведческих задач. Например, однажды они попробовали дать GPT-3 настоящую олимпиадную задачу — написать сочинение про какое-либо историческое событие от лица его участника. Нейросеть не только сгенерировала осмысленный текст, но и стилизовала его под литературный язык того времени.

Так появилась идея проверить, а сможет ли ИИ самостоятельно сдать ЕГЭ по русскому языку. Тему сочинения выбрали из списка, утвержденного для экзамена в 2022 году: «Почему достижения прогресса, дающие человеку удобства и комфорт, могут быть опасны для человечества?». Требования к такому сочинению — не менее 350 слов, развернутый тезис, подкрепленный тремя аргументами, один из которых должен быть взят из художественной литературы, и один — из жизни. 

В итоге получилось три варианта эссе: в одном была отсылка к «Дивному новому миру» Олдоса Хаксли, в другом — на романы Кормака Маккарти «Дорога» и Мэри Шелли «Франкенштейн», в третьем — на «1984» Джорджа Оруэлла. Результат показали Михаилу Павловцу — доценту Школы филологических наук ВШЭ и заведующему лаборатории развития интеллектуальных состязаний по гуманитарным наукам. Михаил сам занимается разработкой заданий для ЕГЭ и олимпиад — он подтвердил, что написанный искусственным интеллектом текст полностью соответствует всем критериям и заслуживает оценки «зачтено». Также он показал эссе своим коллегам — они отметили некоторые языковые просчеты, но в целом также признали, что работа вполне укладывается в требования ЕГЭ.

Фото: photogenica.ru

Фото: photogenica.ru

Фейки и околонаучная околесица

Закономерный вопрос, который все больше волнует с каждым новым витком развития ИИ: заменит ли текстовый генератор журналистов, писателей или даже ученых? Как объясняет Андрей Гетманов, это невозможно. По крайней мере, пока не будет решена фундаментальная проблема генеративных текстов — их абсолютная фейковость:

«До сих пор не решена проблема с генерацией ложной информации — такой, которая полностью похожа на правду, но ею не является. Это особенно ярко проявилось, когда выпустили демоверсию нейросети Galactica, созданную специально для генерации научных статей. Это было менее хайповое событие, чем выход ChatGPT, но она тоже подняла много шума. Оказалось, что она с полной уверенностью могла городить околонаучную околесицу, обманывая пользователя», — комментирует Андрей Гетманов.

Galactica вышла на две недели раньше ChatGPT — она была обучена на более 48 млн статей, учебников и конспектов лекций, научных сайтов и энциклопедий. Причем пользователи могли сами добавлять в ее базу собственные статьи и материалы. В итоге уже через два дня разработчикам пришлось закрыть доступ, потому что шутники очень быстро научили ее писать полную ерунду.

Нейросеть — арт-критик

Тем не менее, подобные генераторы текстов вполне можно использовать для практических целей — особенно если учесть, сколько полезной и релевантной информации заложено в их датасете. Так что нейросеть может стать помощником, например, в подборе литературы, анализе целых научных областей или философских концепций. Как признается Андрей Гетманов, ему GPT-3 даже помогает лучше понимать современное искусство:   

«В грамотных руках и при умении гуглить нейросеть может стать хорошим помощником. Например, если использовать ее, чтобы лучше погрузиться в научную область, с которой незнаком. Можно попросить нейросеть сослаться на какую-то статью, а потом самому ее прочитать. Как-то я попросил ChatGPT объяснить мне некоторые произведения современного технологического искусства. Я брал краткое описание работы и просил разъяснить, что включает в себя это произведение, используя различные философские концепции. При этом с этими произведениями я был знаком раньше и уже имел какое-то понимание об их сути. Но GPT дала мне действительно свежий взгляд, показала мне грани, о которых я даже не думал. Причем описания обычно очень сжатые, в один абзац, и скорее даже технические, чем концептуальные. Так что не ожидаешь, что не-человек может по такому описанию что-то сказать, потому что все смыслы находятся достаточно глубоко».

Андрей Гетманов. Фото предоставлено собеседником

Андрей Гетманов. Фото предоставлено собеседником

Пробелы в образовании

Так что речи об исчезновении пишущих профессий, похоже, пока не идет. Но тот факт, что ИИ способен написать шаблонную работу, которая вполне может получить зачет на экзамене, вызывает вопросы к образовательным стандартам — по крайней мере, такую мысль выразил один из участников эксперимента Михаил Павловец в своей колонке на портале «Вести образования» (там же можно прочитать и само сгенерированное ИИ сочинение). Такого же мнения придерживается и Андрей Гетманов:

«Когда я учился в школе и сам сдавал ЕГЭ шесть лет назад, такие сочинения мне казались какой-то типовой бессмыслицей. Написал, сдал и забыл. Так что таких, на мой взгляд, бессмысленных вещей, которые не показывают уровень знания, и в школе, и в системе высшего образования быть не должно», — уверен он.