Несмотря на то, что сейчас технологией распознавания речи оснащен практически каждый смартфон, некоторые области, связанные с распознаванием надречевых характеристик, до сих пор бросают вызовы исследователям. При этом они могут значительно улучшить жизнь некоторых групп населения. Распознавание и анализ эмоций людей пожилого возраста и детей — все еще малоизученное и сложное направление исследований, которое при этом может решать очень важные прикладные задачи, связанные с жизнью и здоровьем этих групп населения. Так, на основе речевых технологий создаются голосовые помощники для облегчения быта пожилых людей, а также устройства, которые могут проводить мониторинг их психофизического состояния. В будущем такие девайсы смогут использовать характеристики голоса пожилого человека, чтобы определить, все ли в порядке с его психическим и, возможно, физическим здоровьем. Один из алгоритмов, которые могут лежать в их основе, предложили аспиранты Университета ИТМО и сотрудники международной лаборатории «Многомодальные биометрические и речевые системы» Оксана Верхоляк и Дмитрий Федотов в составе международной группы исследователей.
Почему речь пожилых людей нужно анализировать отдельно
Первое устройство для распознавания речи, которое могло понимать произнесенные человеком цифры, появилось в 1952 году. Благодаря развитию технологий, сейчас можно анализировать не только содержание речи, но и эмоции, интонацию, акцент, психофизическое состояние и другие сопровождающие ее параметры. Исследованиями невербальных характеристик речи занимается паралингвистика. В фокусе этой науки не содержание речи, а голос, которым она произносится. Именно по его характеристикам можно понять, что чувствует говорящий. Несмотря на то, что компьютерный паралингвистический анализ стал одной из развивающихся сфер в обработке речи и языка, он все еще не универсален.
Недостаток исследований речи пожилых людей вызван отсутствием баз данных, которые являются основным предметом паралингвистического анализа. Акустические характеристики их речи значительно отличаются от других возрастных групп: речь менее разборчива и имеет пониженный темп. В целом существует различие в голосовых характеристиках людей, которое проявляется с возрастом. Это делает доступные наборы данных непригодными для разработок на их основе моделей для распознавания и анализа речи. К тому же, уже существующие системы также оптимизированы для голоса среднего взрослого и менее точны при распознавании голоса пожилого человека. Еще больше осложняет анализ эмоциональность речи.
Поэтому сейчас задачей ученых является создание системы автоматического распознавания эмоций именно этой группы населения. Исследователи из ИТМО в составе международной команды ученых предложили двойную модель анализа речи пожилых людей, которая работает одновременно с акустическими характеристиками голоса говорящего и лингвистическими характеристиками его речи. Исследование проводилось в сотрудничестве с институтом СПИИРАН в рамках проекта по комплексному анализу паралингвистических явлений в речи при поддержке Российского научного фонда.
Важно не только что мы говорим, но и как мы говорим
В целом паралингвистический анализ позволяет найти такие характеристики голоса, которые описывают говорящего в данных момент. Это происходит путем изучения не того, что он говорит, то есть содержания речи, а того, как он это говорит. Например, анализируются акустические характеристики речи — это тон, тембр, сила, громкость, или интенсивность голоса, долгота звуков, то есть время, затраченное на их произношения. Это характеристики помогают выявить параметр «активации» речи, то есть степени возбуждения говорящего в данный момент. Предметом акустического анализа обычно являются аудиофайлы, в данном случае, записанные рассказы пожилых людей.
Также для паралингвистического анализа важны лингвистические характеристики речи — сами составляющие высказывания, то есть используемые слова. Текстовые единицы помогают выявить другой параметр речи, «валентность». Он показывает, насколько позитивно настроен человек. Лингвистические характеристики сложнее анализировать и интерпретировать.
«Слова сами по себе передают в основном содержимое высказывания, и извлечь из них признаки эмоционального состояния не всегда просто. Обычно заметно, как эмоции влияют на голосовые характеристики, например, повышается тон голоса, его энергия. А вот интерпретировать эмоциональную окраску слов приходится по косвенным признакам. В этом вся сложность», — объясняет Оксана Верхоляк, аспирантка факультета информационных технологий и программирования Университета ИТМО.
Также, по голосу человека легко определить, спокойный человек или возбужденный, но сложно — позитивно он настроен или негативно. Получается, акустические модели хорошо справляются с распознаванием степени возбуждения, но хуже — с распознаванием эмоциональной валентности. Чтобы создать универсальную модель, исследователи использовали две модальности, соответствующие акустическим и лингвистическим характеристикам речи. Они изучали и активацию, и валентность.
Как происходит акустический и лингвистический анализ речи
Паралингвистический анализ речи чаще всего основан на базах данных записанных примеров высказываний. Для акустического анализа это аудиофайлы, а для лингвистического — текст. Каждой речевой и голосовой единице (тону, тембру, слову и так далее) соответствует определенная метка, отражающая отношение говорящего к содержанию его высказывания. В речевом анализе это обычно одна из шести категорий эмоционального состояния: злость, грусть, отвращение, счастье, удивление и страх. Отдельно выделяют нейтральное состояние как отсутствие какого-либо другого.
Процесс обучения модели происходит в два этапа: извлечение признаков и классификация. В упрощенном виде он выглядит так: система моделирования запоминает каждую речевую и языковую единицу и соответствующую им метку, и на основе всех данных делает обобщающие выводы, в результате которых соотносит используемые человеком единицы с эмоцией, которую он испытывает во время речи. После обучения систему тестируют на новых записях. При акустическом анализе на выходе модель давала уровень активации от 0 до 10.
Подход к анализу лингвистической модальности заключался в использовании тональных словарей. В тональном словаре каждому слову присвоено значение «позитивности» или «негативности». Модель определяет значение для каждого отдельного слова в высказывании, а затем создает общую картину, то есть определяет коннотацию высказывания. Использование словарей также сильно повысило производительность модели в условиях небольшого количества данных (образцов речи пожилых людей). Помимо признаков, основанных на словарях, исследователи использовали признаки, извлеченные из предобученных нейронных сетей. Их собирали также из больших текстовых баз данных, содержащих слова и контекст их использования. Ученые использовали несколько вариантов моделей, которые работали в ансамбле, что позволило повысить точность анализа.
На основе двух показателей — активации и валентности — можно спрогнозировать эмоцию, которую испытывает говорящий. Например, счастье имеет высокую активацию и высокую валентность, а злость — высокую активацию и низкую валентность. Это значит, что счастливый говорящий возбужден и настроен положительно, а рассерженный — также возбужден, но имеет отрицательный настрой.
Исследование проводилось на немецкой речи, поскольку выполнялось в рамках международного соревнования по компьютерной паралингвистике. База данных речи и эмоций пожилых людей была предоставлена организаторами и собрана в Германии, в Ульмском университете. Выборку составили 87 человек в возрасте 60-95 лет. В исследовании были использованы два негативных и один позитивный рассказ. После каждого рассказа оценивалось настроение участников по параметрам валентности и активации по шкале от 0 до 10. В итоговую базу данных вошли аудиозаписи и транскрипты их речи.
Какие исследования в этой сфере уже есть
Пожилые люди — малоизученная, но уязвимая возрастная группа, когда речь идет о распознавании и анализе голоса. Им особенно нужна поддержка вне зависимости от того, где они находятся: у себя дома или в специализированном учреждении, где они получают уход. По мере старения населения нагрузка на систему здравоохранения увеличивается, как и необходимость улучшения технологий ухода за пожилыми людьми. К сожалению, даже находясь в больнице или дома престарелых, они могут опасаться говорить обо всем, что чувствуют физически и эмоционально, чтобы не доставлять неудобства персоналу. Технологии распознавания и анализа речи, встроенные в «умные» девайсы могут облегчить мониторинг психоэмоционального состояния пожилых людей и диагностирование возможных болезней. «Одним из признаков развития психоза, характерного для многих психических расстройств состояние, при котором утрачивается “связь” с реальным миром, и человек начинает видеть, слышать и ощущать то, чего на самом деле нет, является нарушение процесса мышления. Оно, в свою очередь, может выражаться в нарушении речи», — пишет издание N+1 со ссылкой на исследование речи больных шизофренией.
Ученые из ряда стран уже занимаются разработкой систем автоматического анализа речи пожилых людей. Например, американские исследователи предложили алгоритм, который может идентифицировать одиноких пожилых людей по акустическим и лингвистическим параметрам речи, а ученые из Массачусетского технологического института разработали модель, которая может диагностировать депрессию. В странах с активно стареющим населением также развиваются цифровые технологии помощи пожилым людям. В Японии создают базы речевых данных пожилых людей, чтобы повысить точность распознавания их речи. Роботов-гуманоидов, оснащенных технологией распознавания, разрабатывают для использования в домах престарелых. Взаимодействие с ними может не только дать пожилым людям возможность общаться, но и сохранить их когнитивные способности. Кроме того алгоритмы, которые распознают эмоции и используются в любых голосовых помощниках, могут подстраиваться под психоэмоциональное состояние собеседника.
Стоит помнить, что уровень принятия высоких технологий в Японии, скорее всего, выше, чем в России. Поэтому сложно точно спрогнозировать, как будут восприняты роботизированные помощники в домах престарелых и больницах в нашей стране. Однако самым большим препятствием на пути разработки технологий анализа речи пожилых людей остается отсутствие соответствующих баз данных.
«Анализ именно паралингвистических явлений может использоваться в качестве второстепенной системы для технологий распознавания речи. Эмоциональная речь распознается хуже, чем обычная за счет изменений голосовых характеристик. Однако если система уже знает, в каком эмоциональном состоянии находится человек, она может адаптироваться под него, чтобы лучше понимать говорящего», — объясняет перспективы автоматического распознавания эмоций пожилых людей Оксана.
Помочь расширить технологию могут мультимодальные системы анализа эмоций. Например, добавление распознавания видео — лучшего источника для распознавания валентности — даст возможность считывать настроения буквально с выражения лица человека и таким образом предсказывать его эмоциональное состояние. В целом подобные технологии сбора данных об эмоциональном состоянии будут лучше всего работать в комплексе. Цифровые помощники на их основе сделают жизнь пожилых людей проще. Они также позволят проводить автоматический мониторинг состояния их душевного и физического здоровья и докладывать о любых изменениях.