С научного языка на человеческий: поможет ли «Дежаргонизатор» сделать науку понятнее широкой аудитории

Израильские ученые представили программу, которая автоматически определяет понятность научного текста. Алгоритм, получивший название De-Jargonizer, разделяет слова на три группы по частотности и при помощи простой формулы рассчитывает, насколько текст может быть понятен широкой аудитории. Протестировав программу на статьях журнала PLoS, ученые выяснили, что аннотации некоторых статей могут содержать до 27 процентов редко встречающихся слов научной лексики. Разработчики надеются, что созданный ими сервис позволит адаптировать тексты для понимания большинства людей. Как ученые и научные коммуникаторы уже делают науку понятнее для широкой аудитории и поможет ли в этом деле новый алгоритм — в обзоре ITMO.NEWS.

Все, кто интересуется наукой, не всегда могут понять целый набор узкоспециализированных терминов, доступных только исследователям. Ученые, в свою очередь, даже рассказывая о сути своей разработки или исследования со страниц научно-популярных изданий, иногда не принимают во внимание, что далеко не каждому читателю знакомы некоторые термины и понятия.

Академический и научно-популярный стиль письма заметно различаются лексикой и структурой предложений. Первый, актуальный для научных журналов, профильной литературы, материалов конференций, подразумевает, что читатель уже частично знаком с предметом исследования и используемыми терминами. В научно-популярных текстах используется лексика, доступная большинству людей, не знакомых с описываемыми явлениями, а также различные аналогии, даже юмор.

«Из-за того, что ученые привыкли использовать профессиональную лексику, им сложно избежать специализированных терминов. Ученые интуитивно понимают, что нужно использовать меньше профессионального жаргона, общаясь с обычными людьми, а не с коллегами. Но они все равно используют слишком много слов, отталкивающих тот контингент, который они пытаются привлечь. Кроме того, не существует стандарта, который помогал бы ученым адаптировать их тексты», — такой точки зрения придерживаются специалисты Техниона и Холоновского института технологий в Израиле.

Нередко исследователи могут попасть в ловушку так называемого проклятия знания (curse of knowledge), добавляют они. Это одна из форм когнитивного искажения, при которой компетентный человек сталкивается со сложностями при попытке объяснить что-либо своему незнающему собеседнику: он попросту не может поставить себя на его место. С этим когнитивным искажением могут столкнуться ученые, выпускающие статьи в рецензируемых журналах и читающие лекции: использование специфической лексики может привести к тому, что определенная тема останется непонятной для слушателей и читателей, объясняют проблему авторы статьи.

Чтобы помочь исследователям быстро определить, какие слова будут непонятны публике, они разработали программное обеспечение, обнаруживающее такие слова в тексте. О проекте они рассказали в журнале PLOS One. По словам авторов, использование в работе сервиса, получившего название De-Jargonizer, поможет ученым эффективнее доносить информацию не только до других специалистов в их профессиональной области, но и до исследователей из других областей, политиков и широкой общественности.

Как работает De-Jargonizer?

De-Jargonizer представляет собой программу, которая обрабатывает научный текст и дает автору информацию о проценте содержания слов специфической лексики и редких слов, что позволяет понять, может ли выбранный текст быть понятен широкой аудитории. Чтобы воспользоваться сервисом, необходимо загрузить на сайт текстовый документ или вставить текст в специальное окно. Обработав текст, программа выделит слова той или иной группы (наиболее часто встречающиеся слова, редкие или узкоспециализированные термины) определенным цветом. Алгоритм оснащен удобным интерфейсом и доступен для использования.

Чтобы определить частотность использования каждого слова в тексте, отнести его к одной из трех групп и собрать информацию о проценте содержания в тексте слов каждого типа, исследователи создали большой (500 тысяч уникальных вхождений) корпус научных статей. Слова в таком корпусе были разделены на три группы: частотные (2000 самых часто встречающихся слов английского языка и их словообразовательных форм), редкие (слова меньшей частотности) и жаргонизмы (слова научной лексики). На основании этого алгоритм определяет доступность текста для широкой аудитории и выдает сумму очков от 0 до 100.

Сервис De-Jargonizer. Источник: scienceandpublic.com

Авторы проверили De-Jargonizer на 500 статьях из различных журналов издательства PLOS, специализирующегося на текстах различной научной тематики. Исследователи взяли аннотацию и краткое резюме, написанное для широкой аудитории. Результаты показали, что аннотации текстов по биологии содержат до 10 процентов слов специфической лексики, в то время как резюме для широкой аудитории — около восьми процентов. При этом ранние исследования показывали, что для нормального восприятия текста читателю должны быть знакомы 98% слов – таким образом, даже краткое резюме не всегда может быть до конца понятным широкой аудитории.

По словам Дмитрия Муромцева, заведующего кафедрой информатики и прикладной математики Университета ИТМО, руководителя международной лаборатории «Интеллектуальные методы обработки информации и семантические технологии», работа над подобными лингвистическими сервисами всегда строится по сходному принципу: разработчики берут большой массив документов и считают статистику с учетом ряда лингвистических особенностей — морфологии, деталей, связанных со словоупотреблением, временами и прочие факторы.

Одним из самых известных сервисов, которые учитывают частотность употребления тех или иных слов или словосочетаний, является программа Google Ngram. Это поисковый онлайн-сервис компании Google, позволяющий строить графики частотности языковых единиц на основе огромного количества печатных источников, опубликованных с XVI века и собранных в сервис Google Books. С 2016 года поиск возможен по массивам на американском английском, британском английском, французском, немецком, испанском, итальянском, русском, иврите, а также упрощенном китайском языке. Кроме того, в этой программе можно осуществлять поиск на основе специализированных корпусов текстов, таких как корпус британской беллетристики. Аналогичные возможности на русском языке предоставляет также Национальный корпус русского языка, где имеется сервис «Графики».

Однако большинство лингвистических сервисов пока все же создаются преимущественно на английском языке. Сервисы, работающие с другими языками гораздо более бедны, а уровень их проработанности ниже, продолжает Дмитрий Муромцев. Причина понятна: с английским языком работают практически все, а с другими языками — только их носители. Впрочем, ряд специализированных программ и сервисов, в частности, текстовые редакторы по проверке грамматики в текстах и некоторые другие, неплохо работают и для русского, и для других языков, добавляет заведующий кафедрой информатики и прикладной математики Университета ИТМО.

«Сама идея и алгоритмы у подобных сервисов приблизительно одинаковые. Они используют набор подходов к обработке текстов, ставших уже стандартными. Уникальность заключается в том, что эти алгоритмы необходимо очень точно подстраивать под каждый конкретный язык. Мы в своей лаборатории, в частности, тоже занимаемся такой работой. Ведь когда мы разговариваем в жизни, мы используем правила, которые изучаем практически с рождения — в школе, в ежедневном общении и так далее. То же самое нужно делать и с машиной: фактически с нуля и очень качественно обучить ее этим правилам, — комментирует Дмитрий Муромцев, заведующий кафедрой информатики и прикладной математики, руководитель международной лаборатории «Интеллектуальные методы обработки информации и семантические технологии». — Если говорить о проекте израильских ученых, в данном случае очень здорово, что разработчики смогли выявить удачный кейс, который хорошо сфокусировал определенную аудиторию — исследователей, занимающихся созданием научных статей – на их конкретную потребность. Когда совмещаются эти два фактора, удается создать что-то действительно интересное, даже несмотря на то, что ничего революционно нового в своих подходах оно не несет».

Словарь De-Jargonizer, как отмечают авторы проекта, основан на лексике новостных сайтов, где используются понятные подавляющему большинству людей слова. Сейчас база данных содержит около 90 млн слов. Пока программа работает только с англоязычными текстами. Однако в будущем авторы планируют периодически обновлять корпус, используемый алгоритмом, а также включить в него другие языки.

Кому это будет полезно?

Публикация в научных журналах уже давно используется как основное сообщение о результатах научных открытий и исследований. Именно эти данные используют научные коммуникаторы и журналисты, чтобы сообщать людям новые сведения. Создатели проекта надеются, что он станет хорошим подспорьем для ученых и поможет им в более доступной форме доносить информацию до читателей. Также они отмечают, что программа будет полезна и для научных коммуникаторов, а также преподавателей, ведущих курс по научной коммуникации.

«Ученые и научные коммуникаторы могут использовать сервис, чтобы адаптировать свои сообщения для широкой публики. Преподаватели с помощью программы смогут отслеживать прогресс студентов, которые учатся писать сообщения, научные релизы и заметки, предназначенные для неспециалистов», — отмечают авторы проекта, приводя пример использования программы и ее результатов в процессе написания таких сообщений.

Как ученые уже выстраивают коммуникацию с аудиторией?

Еще в 2008 году в Австралии, в Университете Квинсленда (University of Queensland — UQ) появился конкурс Three minute thesis. Это ежегодное соревнование теперь объединяет молодых исследователей из более 200 университетов по всему миру. Его цель — рассказать свою диссертацию за три минуты так, чтобы поняла даже бабушка, то есть максимально простым языком.

А месяц назад ученые запустили в Twitter очередной флешмоб, во время которого исследователям необходимо было в одном твите объяснить суть своего исследования или ежедневной работы тринадцатилетнему ребенку. «Я изучаю частицы пыли, которые в 10 тыс. раз тоньше наших волос. Они везде и влияют на наше здоровье», «Я выращиваю бриллианты и пытаюсь понять, как можно изменять их цвет», — эти и другие интересные варианты предлагали заинтересовавшиеся задумкой исследователи.

Ежегодно в разных странах мира проводятся и различные мероприятия с участием популяризаторов науки и молодых ученых — лекции, Science Slam, научные шоу и многое другое. Однако научные коммуникаторы и популяризаторы науки сходятся во мнении: чтобы донести науку до действительно широких масс, предстоит выполнить еще немало работы.

Флешмоб в Twittere, где ученые в одном твите объясняют суть своего исследования или ежедневной работы тринадцатилетнему ребенку. Источник: twitter.com

Каким должен быть понятный обществу научный контент?

Зоуи Даблдэй (Zoe Doubleday), исследователь из Университета Аделаиды (University of Adelaide), отмечает, что и сегодня ученые не всегда уделяют должного внимания языку. В своей колонке на портале The Conversation она дает несколько советов, как сделать статью понятней читателю и обратить его внимание на ключевые выводы проведенной работы.

«Будьте краткими, оригинальными, вдохновляющими. Но давайте будем ясны. Мы не выступаем за сенсационность. Ученые с осторожностью относятся к сенсациям и это правильно: наука — это история о фактах и объективности, а не преувеличениях и желании “продать” текст. Но в то же время мы уверены, что включение в статью творческого элемента, который сделает ее более ясной, доступной и интересной для чтения, не противоречит объективности», — пишет исследователь из Австралии.

Сделать интересный научный контент для обычного читателя порой очень непросто, рассказывает Джэйми Вернон, шеф-редактор журнала American Scientist, директор отдела по научной коммуникации Sigma Xi. Именно поэтому при написании материалов необходимо выстроить целую систему работы с авторами.

«Все статьи в журнале пишут ученые, но мы с ними очень плотно взаимодействуем, чтобы получился нужный для журнала текст. Во-первых, мы просим ученых выносить в начало самые важные результаты их исследований, а ведь обычно в научных статьях о результатах сообщают в конце материала. Во-вторых, наши редакторы помогают ученым с лексикой и заменой сложных терминов. В-третьих, мы просим ученых готовить статью для American Scientist параллельно с написанием научной статьи, чтобы материалы были опубликованы почти одновременно. Мы мотивируем ученого тем, что тогда результаты его работы появятся в Twitter и Facebook и он получит больше цитирований и откликов. А для нас это выгодно тем, что подготовка материала для журнала не затягивается на годы», — отмечает он.

Детальная работа с терминологией имеет большое значение при подготовке любого научно-популярного материала, говорит Дмитрий Мальков, директор Центра научной коммуникации Университета ИТМО. Зачастую она бывает очень мучительной и отнимает немало времени. Это особенно актуально для написания каноничных научных пресс-релизов, формат которых строже научно-популярных новостей и колонок и, как правило, не предполагает использования ярких метафор и аналогий. Однако адаптация специализированных текстов необходима и для них: ученые, которые настаивают на сохранении всей специализированной лексики в таких материалах, рискуют тем, что текст в итоге попросту не дойдет до адресата, отмечает он.

«Универсальной системы для этого нет. Это серьезная мыслительная работа, требующая перебора множества вариантов и концентрации на конкретной целевой аудитории. Никакое приложение не заменит собственную голову, пока что. Тем не менее, ценность описанной в статье израильских исследователей системы для меня скорее в возможности оценить финальный результат. Ведь все не так просто. Разобравшись в терминологии какой-нибудь научной статьи сегодня, уже завтра вы можете забыть, что когда-то у вас этого знания не было. Со временем мы стараемся этого избегать, но такая проблема, называемая в статье “проклятием знания”, все же существует, — комментирует Дмитрий Мальков. — Я считаю, что авторы статьи в PLoS сделали полезное дело и такая система может стать некоторым подспорьем для ученых в процессе оценки текстов, направленных на аудиторию неспециалистов. Авторы сервиса предлагают преподавателям научной коммуникации взять программу на вооружение для оценки прогресса студентов. Так что я думаю, De-Jargonizer может легко стать частью учебного процесса в нашей магистратуре по научной коммуникации и курсе по коммуникации науки, который мы ведем для аспирантов Университета ИТМО».

К началу

С научного языка на человеческий: поможет ли «Дежаргонизатор» сделать науку понятнее широкой аудитории

Елена Меньшикова

Дмитрий Муромцев

Дмитрий Мальков

Похожие новости

На грани науки и PR: как быть физиком и специалистом по научной коммуникации одновременно

«Не спор, а конструктивный диалог»: научные коммуникаторы ИТМО провели дискуссию на конференции Тотального диктанта

Научный коммуникатор Дарья Дворжицкая — о том, как измерить эффективность научно-популярных мероприятий, работая в ЦЕРН