В конце ноября вышла новая версия нашумевшей языковой модели GPT-3 — ChatGPT. Разработчики значительно обновили функционал и добавили множество новых настроек ― например, теперь нейросеть может написать текст в определенном стиле, аргументировать свои тезисы или сослаться на конкретные источники и литературные произведения. Как выяснилось, ей под силу даже написать итоговое сочинение ЕГЭ — недавно такой эксперимент провели филологи из ВШЭ и Андрей Гетманов, студент магистратуры ИТМО «Большие данные и машинное обучение». Мы поговорили с Андреем, чтобы разобраться в реальных возможностях нейросетей и узнать, смогут ли они уже в ближайшем будущем заменить ученых, писателей и журналистов.

Шестьсот гигабайт веб-страниц

Выдающиеся способности языковой программной модели GPT-3 давно на слуху — в конце концов у нее уже есть собственная публикация в Guardian. Нейросеть может вдумчиво рассуждать на философские темы, сочинять стихи и песни, писать детективы, средневековые романы и научные статьи, колонки в журналах или пресс-релизы. В качестве датасета используются почти 600 гигабайт текстов и веб-страниц, например, вся англоязычная «Википедия», книги и поэзия (как классическая, так и современная), текстовые интернет-архивы с научными статьями, материалами СМИ, строчками кода с Github, тревел-гидами и даже кулинарными рецептами.

А в конце ноября разработчик GPT-3, компания OpenAI, выложила в открытый доступ чат-бот на основе нейросетевой модели — ChatGPT. Главная особенность новой версии в том, что она способна «понимать» контекст разговора, то есть с ней можно общаться как с полноценным собеседником — советоваться, задавать вопросы, просить поискать какую-то информацию или даже попросить ревью кода. Разработчики уже активно тестируют ее для написания технической документации, проверки кода и поиска багов.

Домашняя страница ChatGPT. Фото: Nið ricsað / wikipedia.org (CC BY-SA 4.0)

Зачетное сочинение

Но никто не проверял, сможет ли GPT-3 без помощи человека написать сочинение, которое действительно будет зачтено на экзамене. Такой эксперимент решили провести студенты двух российских университетов ― Максим Дремов из Высшей школы экономики и Андрей Гетманов из ИТМО. Максим учится на филологическом факультете, Андрей — на магистерской программе «Большие данные и машинное обучение». Вместе они давно экспериментируют с нейросетями и тестируют возможности языковой модели для разных литературоведческих задач. Например, однажды они попробовали дать GPT-3 настоящую олимпиадную задачу — написать сочинение про какое-либо историческое событие от лица его участника. Нейросеть не только сгенерировала осмысленный текст, но и стилизовала его под литературный язык того времени.

Так появилась идея проверить, а сможет ли ИИ самостоятельно сдать ЕГЭ по русскому языку. Тему сочинения выбрали из списка, утвержденного для экзамена в 2022 году: «Почему достижения прогресса, дающие человеку удобства и комфорт, могут быть опасны для человечества?». Требования к такому сочинению — не менее 350 слов, развернутый тезис, подкрепленный тремя аргументами, один из которых должен быть взят из художественной литературы, и один — из жизни.

В итоге получилось три варианта эссе: в одном была отсылка к «Дивному новому миру» Олдоса Хаксли, в другом — на романы Кормака Маккарти «Дорога» и Мэри Шелли «Франкенштейн», в третьем — на «1984» Джорджа Оруэлла. Результат показали Михаилу Павловцу — доценту Школы филологических наук ВШЭ и заведующему лаборатории развития интеллектуальных состязаний по гуманитарным наукам. Михаил сам занимается разработкой заданий для ЕГЭ и олимпиад — он подтвердил, что написанный искусственным интеллектом текст полностью соответствует всем критериям и заслуживает оценки «зачтено». Также он показал эссе своим коллегам — они отметили некоторые языковые просчеты, но в целом также признали, что работа вполне укладывается в требования ЕГЭ.

Фейки и околонаучная околесица

Закономерный вопрос, который все больше волнует с каждым новым витком развития ИИ: заменит ли текстовый генератор журналистов, писателей или даже ученых? Как объясняет Андрей Гетманов, это невозможно. По крайней мере, пока не будет решена фундаментальная проблема генеративных текстов — их абсолютная фейковость:

«До сих пор не решена проблема с генерацией ложной информации — такой, которая полностью похожа на правду, но ею не является. Это особенно ярко проявилось, когда выпустили демоверсию нейросети Galactica, созданную специально для генерации научных статей. Это было менее хайповое событие, чем выход ChatGPT, но она тоже подняла много шума. Оказалось, что она с полной уверенностью могла городить околонаучную околесицу, обманывая пользователя», — комментирует Андрей Гетманов.

Galactica вышла на две недели раньше ChatGPT — она была обучена на более 48 млн статей, учебников и конспектов лекций, научных сайтов и энциклопедий. Причем пользователи могли сами добавлять в ее базу собственные статьи и материалы. В итоге уже через два дня разработчикам пришлось закрыть доступ, потому что шутники очень быстро научили ее писать полную ерунду.

Нейросеть — арт-критик

Тем не менее, подобные генераторы текстов вполне можно использовать для практических целей — особенно если учесть, сколько полезной и релевантной информации заложено в их датасете. Так что нейросеть может стать помощником, например, в подборе литературы, анализе целых научных областей или философских концепций. Как признается Андрей Гетманов, ему GPT-3 даже помогает лучше понимать современное искусство:

«В грамотных руках и при умении гуглить нейросеть может стать хорошим помощником. Например, если использовать ее, чтобы лучше погрузиться в научную область, с которой незнаком. Можно попросить нейросеть сослаться на какую-то статью, а потом самому ее прочитать. Как-то я попросил ChatGPT объяснить мне некоторые произведения современного технологического искусства. Я брал краткое описание работы и просил разъяснить, что включает в себя это произведение, используя различные философские концепции. При этом с этими произведениями я был знаком раньше и уже имел какое-то понимание об их сути. Но GPT дала мне действительно свежий взгляд, показала мне грани, о которых я даже не думал. Причем описания обычно очень сжатые, в один абзац, и скорее даже технические, чем концептуальные. Так что не ожидаешь, что не-человек может по такому описанию что-то сказать, потому что все смыслы находятся достаточно глубоко».

Андрей Гетманов. Фото предоставлено собеседником

Пробелы в образовании

Так что речи об исчезновении пишущих профессий, похоже, пока не идет. Но тот факт, что ИИ способен написать шаблонную работу, которая вполне может получить зачет на экзамене, вызывает вопросы к образовательным стандартам — по крайней мере, такую мысль выразил один из участников эксперимента Михаил Павловец в своей колонке на портале «Вести образования» (там же можно прочитать и само сгенерированное ИИ сочинение). Такого же мнения придерживается и Андрей Гетманов:

«Когда я учился в школе и сам сдавал ЕГЭ шесть лет назад, такие сочинения мне казались какой-то типовой бессмыслицей. Написал, сдал и забыл. Так что таких, на мой взгляд, бессмысленных вещей, которые не показывают уровень знания, и в школе, и в системе высшего образования быть не должно», — уверен он.

К началу

Сдать ЕГЭ, написать научную статью и объяснить искусство: почему нейросети пока не заменят ученых, писателей и журналистов

Шестьсот гигабайт веб-страниц

Зачетное сочинение

Фейки и околонаучная околесица

Нейросеть — арт-критик

Пробелы в образовании

Екатерина Шевырёва

Похожие новости

Чему научат в новой магистратуре ИТМО «Проектирование и разработка систем больших данных»

«Парсек»-2017: как большие данные и современные игровые технологии изменят мир?

Считаем баллы и поступаем: что такое калькулятор баллов ЕГЭ и как им пользоваться