Логотип журнала Вестник Московского Университета. Серия 14. Психология.
ISSN 0137-0936
eISSN 2309-9852
En Ru
ISSN 0137-0936
eISSN 2309-9852

Антропоморфный метод распознавания эмоций в звучащей речи

Аннотация

Предложен новый эффективный метод автоматического распознавания эмоций по речевому сигналу, основанный на четырехмерной сферической модели эмоций и принципах кодирования информации в нервной системе. В результате разработан и экспериментально протестирован принцип относительного кросс-частотного амплитудно-вариабельного кодирования эмоций в речевом сигнале. Проверялась гипотеза о том, что речь является многоканальным (разнесенным по частотам) сигналом, в каждой полосе которого возможны независимые быстрые микро-изменения амплитуды. Показано соответствие выделенных параметров речевого сигнала и субъективного восприятия тех же образцов (коротких слов «да» и «нет») в системе формализованных параметров четырехмерной психофизиологической модели эмоций. Полученные параметры (факторы) можно охарактеризовать как бимодальные спектральные фильтры. Фактор 1 определяет изменение звукового сигнала по оси знака эмоций – чем больше вклад данного компонента по сравнению с другими, тем положительнее (лучше, полезнее) оценивается объект высказывания. Фактор 2 показывает степень информационной неопределенности ситуации – удивление в противоположность уверенности (спокойствию). Фактор 3 характеризует притяжение (любовь), при этом для набора слов «нет» он сопровождается отсутствием активного отвержения, а для набора «да» – положительной оценкой (знаком). Фактор 4 соответствует характеру отвержения, определяет, будет ли агрессивная (активная) или пассивная (страх, бегство) реакция. Полученные результаты в целом подтверждают продуктивность предлагаемого антропоморфного подхода к разработке технических систем, в частности, к методам обработки речевого сигнала и представления данных. Обнаруженное совпадение подтверждает и выделенные ранее параметры психофизиологической модели, дополнительно обосновывая предпочтительность (по сравнению с другими известными в литературе) именно такой системы классификации эмоций, как с точки зрения размерности, так и в отношении ориентации осей пространства модели.

Известно, что речь человека, нахо­дящегося в различных эмоциональ­ных состояниях, различается по цело­му ряду показателей. К числу наиболее информативных относят, прежде всего, характеристики просодической груп­пы, которые тонко отражают процессу­альную сторону устных высказываний и, в первую очередь, изменяются при ре­акциях аффективного плана (Златоусто­ва, 1957; Михайлов, Златоустова, 1987; Никишкян, 1987). Задача автоматиче­ского распознавания звучащей речи и, в частности, ее эмоциональной окрашенности является междисциплинар­ной и постоянно привлекает исследо­вателей разных специальностей – не только лингвистов, но и математиков, программистов, психологов, физиоло­гов. От ее решения зависит прогресс современных автоматизированных си­стем управления, реабилитации и протезирования, систем безопасности, сроч­ного оповещения и т.п. Решение этой задачи имеет большое научное значение для всех сфер фундаментальных иссле­дований человека и информационных технологий. В последние годы явно уси­лился интерес к анализу речевого сигна­ла, рассматриваемого в качестве наиболее удобного объективного показателя выражения эмоций, эмоционального состояния человека (Сидоров, Филатова, 2012). Это касается не только сфер дея­тельности с повышенной ответственно­стью – космонавтики, авиации (летчики, диспетчеры аэропорта), обслуживания АЭС и пр., которые изначально домини­ровали в этом отношении (Хроматиди, 2005; Соловьева, 2008; Chen, 2008; Siging, 2009; Фролов, Милованова, 2009; Роза­лиев, 2009; Калюжный, 2009; Перервенко, 2009; Morist, 2010), но широкой бы­товой сферы.

В интернете, новостных лентах и по­пулярных изданиях периодически появ­ляются сообщения о все более успешных попытках создания программ и бытовых устройств, реагирующих на эмоции в го­лосе человека. Например, «Ноосфера» сообщает, что «инженеры из Рочестер­ского университета (Великобритания) разработали программу, способную рас­познавать эмоции человека по его речи, даже не понимая смысла сказанного. Программа ориентируется на базу зву­козаписей, состоящую из календарных дат, произнесенных профессиональ­ными актерами с разными интонация­ми. Алгоритм анализирует 12 характер­ных параметров речи, таких как высота и громкость звука. На их основании он определяет одну из шести эмоций. По словам разработчиков, точность распознавания составляет 81 процент — зна­чительно лучше 55 процентов, которых удавалось добиться в предыдущих ана­логичных исследованиях. Авторы уже разработали первое коммерческое при­ложение – программу, отображающую на экране веселый или грустный смайлик в зависимости от результата анали­за записанного голоса. Это лишь первый этап. Авторы программы фантазируют, что в дальнейшем смартфоны смогут менять цветовую схему интерфейса или выбирать подходящую музыку в зависи­мости от настроения владельца» (Шпикуляк, 2012). На сайте Animal language отмечается, что, хотя изучение язы­ка эмоций точными научными метода­ми еще лишь начинается, но уже сейчас стало вырисовываться большое значение этой проблемы, как для теоретиче­ской науки, так и для практики (Animal language, 2013). При этом понятно, что решить эту задачу нельзя без знания ал­фавита акустического языка эмоций. Но, «чтобы заложить этот алфавит в элек­тронный мозг робота, необходимо фор­мализовать признаки, ответственные за эмоциональность голоса» (Animal language, 2013).

Однако, несмотря на множество ис­следований и коммерческих предло­жений в данной области, проблема автоматического распознавания эмо­ционального состояния говорящего по речи на данный момент не является пол­ностью решенной, в частности, отсутст­вует модель описания речевых образцов в условиях проявления разных видов эмоций (Сидоров, Филатова, 2012). Процесс интерпретации (распознавания) эмоций человека по естественной речи является весьма сложной задачей, как в области математической формализа­ции задачи, так и в плане поиска способов четкой конкретизации эмоци­онального состояния – однозначного детектирования эмоции по речевому сигналу. В настоящее время отсутству­ет универсальная теоретическая модель описания речевых образцов в условиях проявления разных видов эмоций (Фи­латова, Сидоров, 2012).

Это обусловлено целым комплексом взаимосвязанных проблем. С одной сто­роны, необходимо выделить в речевом сигнале те параметры, которые могли бы служить индикаторами эмоций. Здесь возникают проблемы их регистрации, математического анализа, поиска соот­ветствующих алгоритмов и технических средств. Для решения этой задачи требу­ется четко задать «входные» и «выходные» данные, формально представить требуе­мый результат. С другой стороны, необходимы формальные, объективные мето­ды для систематизации и классификации таких сложных явлений как эмоции че­ловека. Нужно разработать адекватную модель и собрать базу данных – набор соответствующих «образцов» состояний и корреспондирующих им фрагментов речи. Получается порочный круг: чтобы решить одну задачу, надо уже иметь ре­шение другой.

Тем не менее, научные исследова­ния и практические разработки в этом направлении предпринимаются со все большей интенсивностью, подстеги­ваемой коммерческими возможностя­ми. При этом, как правило, разработ­чики новых методов и инструментов анализа пользуются лишь собственным «здравым смыслом» и некоторыми тео­ретическими обобщениями психологов и фонологов. А последним для анали­за эмоциональных явлений приходится пользоваться «стандартными», общедо­ступными инструментами объективного анализа речевых сигналов. Чтобы хоть как-то приблизиться к достижению пра­ктической эффективности, всем прихо­дится упрощать задачу – при разработке новых методов анализа речевого сигнала ограничиваться отдельными аспек­тами эмоциональных феноменов, на­пример, только интерпретацией знака эмоций (Филатова, Сидоров, 2012) или отдельных эмоций, наиболее важных для данной области применения. В ито­ге общая эффективность предлагаемых в настоящий момент средств невысока. Приведенный выше пример из «Ноос­феры» наглядно это подтверждает: даже при решении задачи по распознаванию всего шести эмоций, результат сводится к примитивному бинарному действию. А метод в типичном случае базируется на стандартных алгоритмах сопоставле­ния с образцом в расчете на простое ко­личественное увеличение быстродейст­вия и объема памяти (например, за счет «облачных» технологий) и размера «сло­варя» образцов.

О параметрах речевого сигнала

Литературный обзор, проведенный К.В. Сидоровым и Н.Н Филатовой, по­казывает, что на современном этапе можно выделить четыре группы объек­тивных признаков и соответствующих методов, позволяющих различать рече­вые образцы: спектрально-временные, кепстральные, амплитудно-частотные и признаки на основе нелинейной дина­мики. (Сидоров, Филатова, 2012). Пока­зано, что, основываясь только на одних простых спектральных характеристи­ках звукового сигнала, невозможно пра­вильно распознавать и идентифициро­вать различные эмоции (Сидоров, 2011).

Спектрально-временные признаки отражают своеобразие формы времен­ного ряда, спектра голосовых импуль­сов у разных лиц и специфику филь­трующих функций их речевых трактов. Они характеризуют особенности рече­вого потока, связанные с динамикой пе­рестройки артикуляционных органов речи говорящего, и являются интеграль­ными характеристиками речевого по­тока, демонстрирующими своеобразие взаимосвязи или синхронности движе­ния артикуляторных органов говоря­щего. Амплитудно-частотные признаки также несут важную информацию. Боль­шинство исследований в качестве на­иболее информативных акустических коррелятов эмоциональных и функцио­нальных состояний рассматривают ряд частотных, временных и мощностных характеристик голосового сигнала (Ада­шинская, Чернов, 2007). Как правило, стенические состояния ведут к возра­станию, а астенические – к понижению показателей основного тона, форман­та и интенсивности. Обнаружена взаи­мосвязь акустических параметров речи, эмоциональных и функциональных со­стояний, обусловленная индивидуаль­ными особенностями говорящих, что выражается в разнонаправленности из­менений ряда временных и мощност­ных параметров речи (Адашинская, Чер­нов, 2007). Однако применение этих признаков не позволяет в полной мере использовать их в качестве инструмен­та идентификации эмоционально окра­шенной речи (Сидоров, 2011).

В группе спектрально-временных признаков были выделены параметры, инвариантные к действию повышенного уровня сигнала, описывающие статисти­ческие характеристики речевого сигна­ла и основного тона, особенности спек­тральной структуры (Розалиев, 2009). Группа признаков эмоционально окра­шенной речи по кепстральным коэффи­циентам позволяет отделить сигнал воз­буждения от сигнала речевого тракта. Мел-частотные кепстральные коэффи­циенты широко используются в качест­ве набора признаков речевого сигнала, поскольку они учитывают психоакусти­ческие принципы восприятия речи и мел-шкалу, связанную с критическими полосами слуха (Siging, 2010; Сидоров, Филатова, 2012). Для группы признаков нелинейной динамики речевой сигнал рассматривается как скалярная величи­на, наблюдаемая в системе голосового тракта человека (Старченко и др., 2010). В настоящее время методы нелинейной динамики и нелинейной авторегрессии позволяют восстанавливать фазовый портрет аттрактора по временному ряду или по одной его координате. Экспери­ментально подтверждено, что выявленные отличия в форме аттракторов мож­но использовать для диагностических правил и признаков, позволяющих рас­познать и правильно идентифицировать различные эмоции в эмоционально окра­шенном речевом сигнале. Так, К.В. Сидо­ров и Н.Н Филатова предложили модель интерпретации знака эмоции по пра­вилу объединения нечетких множеств, характеризующих значения Rmax – усредненного максимального вектора реконструкции аттрактора по четырем квадрантам (Филатова, Сидоров, 2012). В работе Р.Ю. Романенко рассмотрена возможность применения вейвлет-анализа речевого сигнала с целью использования в системе распознавания речи (Романен­ко, 2010). Предлагается также проводить классификацию эмоционально окрашен­ной речи с использованием метода опор­ных векторов (Хейдоров, 2008). Как от­мечалось около десяти лет назад, аппарат акустического анализа речи уже доста­точно развит (Бабин, Мазуренко, Холоденко, 2004). Практически все наиболее часто используемые способы расчета акустических параметров речевого сиг­нала реализованы в известных и общедоступных математических компьютер­ных пакетах обработки сигналов (Бабин, Мазуренко, Холоденко, 2004), например, в пакетах SPL и IPPS фирмы Intel (Intel Developer Centers, 2013).

Таким образом, речь, порождаемая человеком, находящимся в различных эмоциональных состояниях, характери­зуется целым рядом показателей, в том числе таких, которые могут отражать процессуальную сторону устных выска­зываний. Однако, формальные крите­рии, хотя и позволяющие успешно дифференцировать отдельные эмоции по речевым образцам, не могут дать общей картины изменения текущего состоя­ния и отношения человека, поскольку не разработана антропоморфная система классификации эмоциональных прояв­лений в звучащей речи. Отправной точ­кой решения вышеописанной проблемы должна стать система, достаточно пол­но моделирующая процесс восприятия эмоций человеком, которая учитывает совокупность разных аспектов их про­явления, в том числе, в речи. Многомер­ность эмоций, их проявление на различных уровнях отражения и деятельности, способность к слиянию и образованию сочетаний исключают возможность их простой линейной классификации (Ви­люнас, 1984) или создания конечного дискретного набора определенных ва­риантов. Обычно выделяют как минимум десять типов эмоциональных отношений или так называемых фундаментальных эмоций, между которыми, однако, воз­можны плавные переходы.

Эти типы в достаточной мере услов­ны, обозначая (в виде понятийных ка­тегорий) лишь наиболее важные места эмоционального континуума. Поэто­му в разное время на основе различных экспериментальных методов и эмпи­рических фактов делались попытки выделить в этом разнообразии ограни­ченное число базовых факторов или ос­новных «компонентов эмоционального качества», которые бы выступали по отношению к отдельным эмоциональ­ным переживаниям как родовые исход­ные характеристики или «образующие». В настоящее время известен целый ряд таких независимых или частично пере­крывающихся признаков и оснований для деления эмоциональных явлений. Это объясняется тем, что эмоции прояв­ляются одновременно и во внутренних переживаниях, и в поведении, причем, и то, и другое обусловлено еще специфической физиологической актива­цией. При этом аппарат анализа ре­чевого сигнала также должен, хотя бы в некоторой степени, воспроизводить процессы, позволяющие нервной системе человека правильно распознавать всю гамму эмоций, т.е. необходима ан­тропоморфная модель эмоций.

Четырехмерная сферическая модель эмоций

Несмотря на всю сложность про­блемы, предпринятое ранее исследо­вание эмоциональных характеристик звучащего слова и семантики эмоций позволили построить универсальную четырехмерную сферическую модель эмоций (Виденеева, Хлудова, Вартанов, 2000; Вартанов, Виденеева, 2001; Варта­нов, Вартанова, 2003; Вартанов, Варта­нова, 2005). Эта модель объективирует и формализует в системе четырех количественных параметров все многоо­бразие переживаний и различные про­явления эмоций в речи, мимике, а также в семантике.

Построение модели проводилось экспериментально с помощью много­мерного шкалирования субъективных различий между эмоциональными со­стояниями, задаваемыми специально созданными образцами. Чтобы уровнять и сделать определенным содержание этих образцов, в эксперименте исполь­зовалось одно и то же слово, произне­сенное в разных эмоциональных состояниях. В одной серии использовалось слово «да», а в другой – «нет». Уже такие короткие одноударные слова, как сви­детельствует практика актерского ма­стерства (Станиславский, 1959), впол­не могут адекватно и полно отражать весь спектр эмоциональных проявле­ний. Эти слова, по сравнению с други­ми, несут более определенное и незави­сящее от контекста значение, но, в то же время, они более нейтральны и допуска­ют больше вариантов эмоциональной окраски при их произнесении. Из боль­шого числа образцов, наигранных про­фессиональными актерами и «подлов­ленных» в естественных условиях, было отобрано для каждого набора по 20 на­иболее удачных, отражающих10 типичных эмоций, наиболее существенных для актерского исполнения (Станислав­ский, 1959). Наличие двух наборов таких образцов (противоположных по семан­тике) позволяет найти универсальные, независимые от конкретного слова па­раметры, определяющие именно прояв­ление эмоций в речи.

В эксперименте регистрировались субъективные оценки степени попар­ного различия между звуковыми стиму­лами. Набор из 20 образцов в каждой из серий образовывал по 190 вариан­тов пар. Каждая пара предъявлялась не менее чем по 3 раза, т.е. всего 570 пар, которые следовали в случайном поряд­ке. В экспериментах участвовало в об­щей сложности 25 взрослых испытуе­мых и 30 детей разных возрастов (с 1-го по 8-й классы). Кроме того, тем же мето­дом исследовалась и семантика эмоций русского языка, для чего использовались различные наборы слов, обозначающих эмоции. Обнаружено, что и дети, и все взрослые одинаково успешно воспринимают и непосредственно сравнива­ют эмоциональные состояния другого, выраженные в интонациях речи – полу­ченные матрицы всех испытуемых хо­рошо совпадали (коррелировали) друг с другом, что позволило далее объеди­нить все данные и уменьшить случай­ный шум получаемых оценок, образую­щих матрицу различий.

Анализ (метрическим методом) мно­гомерного шкалирования усредненных матриц различий в соответствующих сериях показал, что размерность полу­ченного эмоционального пространст­ва по всем критериям должна быть оце­нена как равная четырем. Расположение точек-стимулов в четырехмерном пространстве проверялось на сферичность. Оказалось, что в серии «да» вариативность радиуса четырехмерной сферы составляла всего 9,71%, а в серии «нет» – 9,94%. Это хорошо согласуется с теоретическими разработками о принципах кодирования в нервной системе (Соко­лов, Вайткявичюс, 1989; Соколов, 2001; Вартанов, 2011), на основе которых мо­жет быть построена антропоморфная нейротропная модель эмоций.

После вращения евклидовы оси про­странства получили интерпретацию как определенные нейронные (мозговые) механизмы эмоций, а угловые характе­ристики – как субъективные качества эмоций. Первые две евклидовы оси про­странства связаны с оценкой ситуации: ось 1 – по знаку (хорошо, полезно, при­ятно или плохо, вредно, неприятно), ось 2 – по степени информационной опре­деленности (уверенность – удивление). Система третьей и четвертой осей связа­на с побуждением: ось 3 – притяжение, ось 4 – отвержение (оборонительная ре­акция), активное (агрессия) или пассив­ное (страх, затаивание) избегание. Это хорошо согласуется с известными моз­говыми механизмами эмоций (Симонов, 1981; 2001). Так, ось 3 и положительное направление оси 1 (вроде бы сход­ные качества) отражают работу разных групп нейронов гипоталамуса – побу­дительных и подкрепляющих, которые хотя и определяют, казалось бы, одни и те же положительные эмоциональные состояния, но находятся между собой в конкурентных отношениях (что проявляется в ортогональности осей моде­ли). Ось 2 и отрицательное направление оси 1 можно связать с работой гиппо­кампа (активизирующегося в условиях информационной неопределенности) и фронтальной коры (дорсальной ее части), а также с миндалины лимбиче­ской системой – вентральной части префронтальной коры. В целом префронтальная кора, являясь, как и гиппокамп, «информационной» структурой мозга, ориентирует поведение на сигналы вы­соковероятных событий. Ось 4, которая делит активные и пассивные оборони­тельные реакции, по-видимому, также описывает активность медиального гипоталамуса, точнее двух его структур, стимуляция которых вызывает оборо­нительные реакции нападения (положи­тельное направление оси 4) или бегства, соответственно (отрицательное направ­ление оси 4).

Оказалось, что три угла четырехмер­ной гиперсферы, выбранные в проекции осей 1-2, 3-4 и угол, образуемый движе­нием точки между двумя этими плоско­стями, задают такие субъективно переживаемые качества эмоций, которые описывал еще В. Вундт (Вундт, 1984). Это три качества: 1) эмоциональный тон (удовольствие – неудовольствие), 2) воз­буждение – успокоение – угнетение, 3) напряжение – разрешение. При этом первый и второй углы упорядочивают все 10 основных эмоций по модально­сти: 5 эмоций, определяемых ситуацией и 5, определяемых собственной актив­ностью. Но оказалось также, что при выборе другой системы угловых параметров – если взять три угла в системе осей 4-1, 3-2 и угол, образуемый движением точки между этими плоскостями, обнаруживается другая система класси­фикации эмоций, описываемая при ис­следовании выражений лица – круго­вая система Х. Шлосберга ([Schlosberg, 1941) и сферическая модель Ч.А. Из­майлова (Измайлов, Коршунова, Соко­лов, 1999), а также семантика Ч. Осгуд (Osgood, Suci, Tannenbaum, 1957). Она включает: 1) эмоциональный тон или знак (упорядочивает 6 основных эмо­ций по модальности), 2) активность или яркость эмоций (возбуждение – покой) и 3) эмоциональная насыщен­ность (сила проявления эмоций).

Таким образом, полученные данные показывают, что звучащая речь вполне определенно и достаточно точно выра­жает эмоциональное состояние гово­рящего, хорошо корреспондируя с дру­гими важными для человека каналами: зрительным восприятием (по мимике и выразительным движениям), ощуще­нием своего собственного состояния в самонаблюдении. Она также закрепле­на в языковых терминах (общественный опыт обозначения эмоций в социаль­ном канале коммуникации). Предлагае­мая четырехмерная сферическая модель может служить общей классификацион­ной системой для эмоциональных явле­ний, объединяя, как физиологические представления о мозговых механизмах эмоциональной регуляции, так и из­вестные психологические классифика­ции, полученные на основе разных эк­спериментальных данных. Она также количественно объясняет все возмож­ные нюансы и плавные взаимопереходы эмоций, представляя каждую конкрет­ную эмоцию как линейную комбина­цию выделенных основных психофизи­ологических параметров. По-видимому, у человека и животных существует специальный механизм эмоционального или чувственного отражения, необхо­димый для регуляции поведения и ори­ентировки в ситуации, работа которо­го может быть формально представлена в виде вышеописанной четырехмерной сферической модели. Наличие едино­го механизма во всех процессах позво­ляет представить все эмоциональные явления в одной и той же системе параметров. В результате данная модель, являясь антропоморфной (поскольку отражает субъективное отношение че­ловека) и нейротропной (поскольку от­ражает нейронные механизмы), позволяет количественно описать и наглядно представить изменения текущего состо­яния человека или его эмоционального отношения. Она может стать базисом при конструировании устройства, кото­рое в удобной форме представляет де­тектируемые по звучащей речи эмоцио­нальные состояния человека.

Результаты выявления параметров речевого сигнала в соответствии с предлагаемой антропоморфной моделью

В качестве исходного материала для выявления параметров речевого сигна­ла, которые должны воспроизводить па­раметры вышеописанной сферической модели эмоций, были использованы те же образцы звуковых фрагментов, что и в эксперименте с субъективными оценками. Это – 20 образцов слова «да» и 20 образцов слова «нет» (средняя дли­тельность 0,60 сек, стандартное отклоне­ние 0,19 сек; минимальная длительность 0,3 сек, максимальная 0,98 сек; запись в полосе до 8000 Гц). После исследования возможных параметров, наиболее полно представляющих свойства данно­го набора образцов, было обнаружено, что наилучшим образом поставленной задаче соответствует показатель, вычи­сляемый по следующему алгоритму:

  1. Для звукового фрагмента с помощью стандартных средств – быстрое пре­образование Фурье со сглаживанием в минимальном скользящем окне по­рядка 10-15 мс вычисляется последовательностью мгновенных спектров мощности сигнала (в диапазон от 0 до 4000 Гц с шагом 50 Гц).

  2. На основе последовательности мгно­венных спектров в скользящем окне (исследовались окна порядка 50-200 мс) вычисляется показатель микро-ва­риативности (стандартное отклоне­ние) амплитуды (квадратного корня от мощности) на каждой частоте.

  3. Для вычисления интегральной оценки всего звукового образца использова­лось простое усреднение предыдущего показателя по всему интервалу звучания и получения одного вектора (по часто­те) для каждого звукового образца.

Такой алгоритм был выбран на ос­нове теоретических предположений об общих принципах кодирования информации в нервной системе (Варта­нов, 2011). Дополнительным основа­нием послужили наблюдения, впервые сделанные еще Ч. Дарвином о том, что эмоциональную выразительность голо­су придает именно определенное «дро­жание» тембра, что особенно важно для выразительности пения (Дарвин, 1940). Как отмечалось многими авторами, из­менения громкости речи в макро-вари­анте на протяжении всего высказывания также может характеризовать эмоцио­нальное отношение говорящего. Однако и быстрые микро-изменения амплитуды (в пределах короткого слова или междо­метия) также могут служить мерой изме­нения эмоционального состояния или отношения человека. При этом, для того, чтобы было возможно передать всю гам­му эмоций, как показано выше, недоста­точно только одного параметра, поэтому проверялась гипотеза о том, что речь – это многоканальный (разнесенный по частотам) сигнал, в каждой полосе ко­торого возможны независимые быстрые микро-изменения амплитуды. То есть, основное предположение свелось к про­верке относительного кросс частотного амплитудно-вариабельного кодирования эмоций в речевом сигнале.

Все полученные звуковые образцы (40 записей разной длины) были обра­ботаны с помощью специально создан­ных программных средств, а усреднен­ные значения предлагаемого параметра в исследованном частотном диапазо­не (с шагом 50 Гц) были собраны в еди­ный массив данных, который далее под­вергся статистическому (факторному) анализу. Вращение и интерпретация полученных факторов проводились с помощью специально разработанных средств на основе сопоставления с из­вестными для данных образцов (набо­ров слов «да» и «нет») оценками в четырехмерной модели эмоций.

В результате факторный анализ по­зволил оценить размерность и выявить 4 фактора (рис. 1), которые совокупно опи­сывают 70,15% всей дисперсии данных.


Рис. 1. График распределения собственных значений при факторном анализе всего набора звуковых образцов, включая слова «да» и «нет» (всего 40 образцов). Стрелками отмечена граница, в со­ответствии с которой можно оценить размерность факторного пространства как равную четырем.

После специального вращения в про­странстве модели эмоций для дости­жения наилучшего соответствия между нормированными значениями факто­ров и координатами образцов факто­ры получили спектральное выражение, показанное на рис. 2. Решение, полу­ченное таким методом вращения, не сильно отличалось от решения, получен­ного методом варимакс с нормализацией. В результате полученные факторы мож­но охарактеризовать как бимодаль­ные спектральные фильтры. Фактор 1 имеет основной максимум в области 3000 Гц и вспомогательный – 500 Гц. Фактор 2 имеет два близких максиму­ма на частотах 1000 и 1750 Гц. Фактор 3 имеет самые широко разнесенные мак­симумы – в низкочастотной области (около 150 Гц) и высокочастотной об­ласти (3500 Гц). Фактор 4 имеет близкие максимумы на 600 и 1500 Гц и близок к фактору 2, но сдвинут относительно него в низкочастотную область, попа­дая своими максимумами в его локаль­ные минимумы.


Рис. 2. Спектральные характеристики четырех выделенных факторов, которые описывают эмоциональные качества всех речевых образцов в совокупности. Горизонтальная ось дана в логарифмическом масштабе.В результате вычисления значения этих факторов и их нормализации (как этого требует теория кодирования и сферичность пространства психофизиологической модели) было проведено сопоставление оценок, полученных путем формального анализа звукового сигнала и субъективных оценок, в соответствии с моделью эмоций. Вычисленные коэффициенты корреляции для каждого набора в отдельности (слова «да» и «нет») и совместно представлены в таблицах 1-3.

x1

x2

x3

x4

Factor 1

0.42

-0.36

0.13

-0.08

Factor 2

-0.36

0.59

0.11

-0.17

Factor 3

0.11

0.11

0.65

-0.30

Factor 4

-0.10

-0.15

-0.27

0.63

Таблица 1. Коэффициенты корреляции Пирсона между параметрами модели эмоций (х1- х4) и параметрами речевого сигнала (факто- рами). Жирным курсивом показаны значимые (p < .05 при N=40) коэффициенты.

x1

x2

x3

x4

Factor 1

0.57

-0.24

0.35

-0.22

Factor 2

-0.14

0.28

0.78

-0.51

Factor 3

0.53

0.07

0.50

0.04

Factor 4

-0.03

-0.41

-0.57

0.72

Таблица 2. Коэффициенты корреляции Пирсона для набора «да» между параметрами модели эмоций (х1-х4) и параметрами речевого сигнала (факторами). Жирным курсивом показаны значимые (p < .05 при N=20) коэффициенты.

x1

x2

x3

x4

Factor 1

0.15

-0.46

-0.23

0.15

Factor 2

-0.50

0.55

-0.14

-0.43

Factor 3

-0.31

0.41

0.79

-0.58

Factor 4

-0.05

-0.22

0.12

0.55

Таблица 3. Коэффициенты корреляции Пирсона для набора «нет» между параметрами модели эмоций (х1-х4) и параметрами речевого сигнала (факторами). Жирным курсивом показаны значимые (p < .05 при N=20) коэффициенты.

При анализе этих данных необходи­мо учесть, что, хотя и выделенные фак­торы и параметры (оси) модели эмоций ортогональны, тем не менее, исследу­емые образцы не заполняют все пространство равномерно и существенно различаются для наборов «да» и «нет». Поэтому сами координаты образцов в модели в некоторой степени коррели­руют между собой (таблица 4). Похожая корреляция по той же причине наблюдается и между значениями факторов, что понятно, если система голосовых параметров (выделенных факторов) и система психофизиологических пара­метров модели близки.

x1

x2

x3

x4

x1

1.00

-0.22

0.07

-0.03

x2

-0.22

1.00

0.34

-0.30

x3

0.07

0.34

1.00

-0.44

x4

-0.03

-0.30

-0.44

1.00

Таблица 4. Коэффициенты корреляции Пирсона между параметрами модели эмоций (х1- х4). Жирным курсивом показаны значимые (p < .05 при N=40) коэффициенты.

Корреляционные поля для выделен­ных факторов представлены на рис. 3.





Рис. 3. Корреляционные поля соответствия выделенных параметров речевого сигнала и психофизиологической модели. Кружками обозначены образцы «да», а квадратиками – «нет».

На основании этих данных можно за­ключить, что в целом первые четыре спектральных параметра значимо кор­релируют с параметрами психофизио­логической модели. При этом наблюда­ется определенное своеобразие связей в зависимости от набора образцов, что позволяет предположить, что семанти­ческое значение слова («да» или «нет») в некоторой степени определяет и на­правление изменения данных параметров голоса. Тем не менее, можно заключить, что первый фактор определяет изменение звукового сигнала по оси зна­ка эмоций – чем больше вклад данного компонента по сравнению с другими, тем положительнее (лучше, полезнее) оцени­вается объект высказывания.

Это более справедливо для утвержде­ний в наборе «да». Второй спектральный параметр в целом и в наборе «нет» опре­деляет степень информационной нео­пределенности ситуации – удивление в противоположность уверенности (спокойствию). При этом для слов «да» это удивление сопровождается также еще влечением, а «не отвержением», т.е. характеризует любопытство в случае со­гласия или чистое удивление в случае отрицания. Третий компонент в целом и во всех наборах в отдельности ха­рактеризует притяжение (любовь), при этом, для набора «нет» он сопровожда­ется отсутствием активного отвержения, а для набора «да» – положительной оценкой (знаком). Четвертый компо­нент соответствует, как в целом, так и для обоих наборов по отдельности, степени и характеру отвержения. Он определяет: будет ли реакция агрессив­ная (активная) или пассивная (страх, бегство). При этом в наборе «да» он ха­рактеризуется еще «не притяжением».

Заключение

Проведенный анализ и полученные в результате параметры звукового сигнала позволяют построить эффективный ан­тропоморфный (и по процессу, и по ре­зультату) метод диагностики и представ­ления эмоций в звучащей речи. Хорошее согласие параметров речевого сигна­ла и психофизиологической модели эмоций подтверждают теоретические представления о принципах кодиро­вания информации в нервной системе и продуктивности предлагаемого антро­поморфного подхода к разработке тех­нических систем, в частности методам обработки речевого сигнала.

Обнаруженное совпадение подтвер­ждает и выделенные ранее параметры психофизиологической модели, до­полнительно обосновывая предпочти­тельность (по сравнению с другими из­вестными в литературе) именно такой системы классификации эмоций, как с точки зрения размерности, так и в от­ношении ориентации осей пространст­ва модели.

Полученные данные также ставят но­вые вопросы о взаимосвязи и взаимодейст­вии разноуровневых систем управления – вербальной сознательной и эмоциональ­ной досознательной, которые совмест­но отражаются в речевом сигнале. Необ­ходимо также провести дополнительное исследование универсальности выделен­ных параметров речевого сигнала по отношению к специфике голоса диктора (в данном исследовании описан голос толь­ко одного диктора) и различные речевые высказывания, поскольку возможна ин­терференция содержания и просодиче­ского оформления высказывания, а также интерференция параметров, кодирующих эмоциональное и вербальное содержание речевого сигнала.

Литература:

Адашинская Г.А. Акустические корреляты индивидуальных особенностей функциональных и эмоциональных состояний / Г.А. Адашинская, Д.Н. Чернов // Авиакосмическая и экологическая медицина. – 2007. – Т. 41. – № 2. – С. 3-13.

Бабин Д.Н. О перспективах создания системы автоматического распознавания слитной устной русской речи / Д.Н. Бабин, И.Л. Мазуренко, А.Б. Холоденко // Интеллектуальные системы. 2004. – Т. 8. – Вып. 1-4. – С. 45-70.

Вартанов А.В. Механизмы семантики: человек – нейрон – модель / А.В. Вартанов // Нейрокомпьютеры: разработка, применение. – 2011. – № 12. – С. 54-64.

Вартанов А.В. Что такое эмоции? 4-х мерная сферическая модель аспектов переживания, выражения, восприятия и обозначения эмоций / А.В. Вартанов, И.И. Вартанова // Культурно исторический подход и проблема творчества: Материалы вторых чтений памяти Л.С. Выготского : сб. / под ред. Е.Е. Кравцовой, В.Ф. Спиридонова, Ю.Е. Кравченко. – Москва : РГГУ, фонд им. Л.С. Выготского, 2003. – С. 13-29.

Вартанов А.В. Эмоции, мотивация, потребность в филогенезе психики и мозга / А.В. Вартанов, И.И. Вартанова // Вестник Московского Университета. Сер. 14 Психология. – 2005. – № 3. – С. 20-35.

Вартанов А.В. Четырехмерная сферическая модель эмоций и дистанционный речевой контроль состояния человека / А.В. Вартанов, Н.М. Виденеева // Тезисы докладов рабочей группы «Влияние информационных технологий на национальную безопасность». 4-я Ежегодная Конференция Консорциума ПрМ «Построение стратегического сообщества через образование и науку». – Москва, 2001. – 35 с.

Виденеева Н.М. Эмоциональные характеристики звучащего слова / Н.М. Виденеева, О.О. Хлудова, А.В. Вартанов // Журнал высшей нервной деяельности. – 2000. – Т. 50. – Вып. 1. – С. 29-43.

Вилюнас В.К. Основные проблемы психологической теории эмоций/ В.К. Вилюнас // Психология эмоций : тексты / под ред. В.К. Вилюнаса, Ю.Б. Гиппенрейтер. – Москва : Изд-во МГУ, 1984. – С. 3-26.

Вундт В. Психология душевных волнений / В. Вундт // Психология эмоций : тексты / под ред. В.К. Вилюнаса, Ю.Б. Гиппенрейтер. – Москва : Изд-во МГУ, 1984. – С. 48-63.

Дарвин Ч. Выражение эмоций у человека и животных // Дарвин Ч. Сочинения / под ред. Н.П. Павловского. Т. 5. – Москва, Ленинград, 1940.

Златоустова Л.В. Типы эмфатического ударения в русском литературном языке / Л.В. Златоустова // Общеуниверситетский сборник. – 1957. – Т. 117. – С. 107-111.

Измайлов Ч.А. Сферическая модель различения эмоциональных выражений схематического лица человека / Ч.А. Измайлов, С.Г. Коршунова, Е.Н. Соколов // Журнал высшей нервной деятельности. –1999. – Т. 49. – Вып. 2. – С. 186-199.

Калюжный М.В. Система реабилитации слабовидящих на основе настраиваемой сегментарной модели синтезируемой речи : дис. …канд. тех. наук / М.В. Калюжный. – Санкт-Петербург, 2009.

Михайлов В.Т., Златоустова Л.В. Измерения параметров речи / В.Т. Михайлов, Л.В. Златоустова. – Москва : Радио и связь, 1987 – 167,[1] с. : ил.

Никишкян Э.А. Типология интонации эмоциональной речи / Э.А. Никишкян. – Киев, Одесса, 1986.

Перервенко, Ю.С. Исследование инвариантов нелинейной динамики речи и принципы построения системы аудиоанализа психофизиологического состояния: дис. …канд. тех. наук / Ю.С. Перервенко. – Таганрог, 2009.

Розалиев В.Л. Моделирование эмоциональных реакций пользователя при речевом взаимодействии с автоматизированной системой : дис. … канд. тех. наук / В.Л. Розалиев. – Волгоград: ВГТУ, 2009.

Романенко Р.Ю. Вейвлет-анализ речевых сигналов. Успехи современной радиоэлектроники / Р.В. Романенко // Зарубежная радиоэлектроника. – 2010. – № 12. – С. 51-54.

Сидоров К.В. Анализ признаков эмоционально окрашенной речи / К.В. Сидоров, Н.Н. Филатов // Вестник Тверского государственного технического университета. – 2012. – Вып. 20. – С. 26-31.

Сидоров К.В. К вопросу оценки эмоциональности естественной и синтезированной речи по объективным признакам / К.В. Сидоров, М.В. Калюжный // Вестник Тверского государственного технического университета. – 2011. –Вып. 18. – С. 81-85.

Симонов П.В. Лекции о работе головного мозга: потребностно-информационная теория высшей нервной деятельности / П.В. Симонов. – Москва : Наука, 2001. – 95 с.

Симонов П.В. Эмоциональный мозг / П.В. Симонов. – Москва : Наука, 1981.

Соколов Е.Н. Сферическая модель интеллектуальных операций / Е.Н. Соколов // Психологический журнал. – 2001. – Т. 22. – № 3. – С. 49-56.

Соколов Е.Н., Вайтнявичюс Г.Г. Нейроинтеллект: от нейрона к нейрокомпьютеру / Е.Н. Соколов, Г.Г Вайтнявичюс. – Москва : Наука, 1989. –238 с.

Соловьева Е.С. Методы и алгоритмы обработки, анализа речевого сигнала для решения задач голосовой биометрии : дис. …канд. тех. наук / Е.С. Соловьева. – Москва, 2008.

Станиславский К.С. Моя жизнь в искусстве / К.С. Станиславский. – Москва, 1959.

Старченко И.Б. Методы нелинейной динамики для биомедицинских приложений / И.Б. Старченко, Ю.С. Перервенко, О.С. Борисова, Т.В. Момот // Известия ЮФУ. Технические науки. – 2010. – № 9 (110). – С. 42-51.

Филатова Н.Н., Сидоров К.В. Модель интерпретации знака эмоций по естественной речи / Н.Н. Филатова, К.В. Сидоров // Известия ЮФУ. Технические науки Тематический выпуск. – 2012. – Т. 134. – № 9 – С. 39-45.

Фролов М.В., Милованова Г.Б. Речевой сигнал как показатель функционального состояния человека-оператора / М.В. Фролов, Г.Б. Милованова // Биомедицинская радиоэлектроника. – 2009. – № 6 – С. 49-53.

Шпикуляк И. Ему не все равно: смартфоны смогут различать эмоции. // Ноосфера, IT и электроника – [Электронный ресурс]. – Режим доступа : http://noos.com.ua/ru/post/3104 / – Дата обращения 06 декабря 2012.

Хейдоров И.Э. Классификация эмоционально окрашенной речи с использованием метода опорных векторов / И.Э. Хейдоров, Я. Цзинбинь и др. // Речевые технологии. – 2008 . – Вып. 3. – С. 63−71.

Хмылёв В.Л., Кондрасюк В.А. Практические аспекты взаимодействия информационных уровней восприятия реальности // Вестник Томского гос. университетата. – 2014. – № 381. – C. 87-93.

Хроматиди А.Ф. Исследование психофизиологического состояния человека на основе эмоциональных признаков речи : дис. …канд. тех. наук / А.Ф. Хроматиди. –Таганрог, 2005.

Animal language – [Электронный ресурс]. – Режим доступа : http://animalang.biggo.ru/prakticheskoe_znachenie_  – Дата обращения 12.02.2013.

Chen Y.T. A study of emotion recognition on mandarin speech and its performance evaluation : Ph. D. dissertation / Y.T. Chen. – Tatung, 2008.

Intel Developer Centers – [Электронный ресурс]. – Режим доступа : http://developer.intel.com ; http://www.intel.com/content/www/us/en/search.html?keyword=SPL +  http://www.intel.com/content/www/us/en/search.html?context=767188&tab=767189&keyword=IPPS  – Дата обращения 12.12.2013

Morist M.U. Emotional speech synthesis for a radio dj: corpus design and expression modeling: master thesis MTG-UPF dissertation / M.U. Morist. – Barcelona, 2010.

Osgood C.E., Suci G.J. & Tannenbaum P.H. The measurement of meaning. – Urbana. University of Illinois Press. 1957.

Schlosberg H.S. A scale for the judgerment of facial expressions // Exsperimental Psychology. – 1941. – P. 497-510.

Siging W. Recognition of human emotion in speech using modulation spectral features and support vector machines: master of science dissertation / W. Siging. – Kingston, 2009.

Скачать в формате PDF

Поступила: 18.02.2013

Принята к публикации: 03.03.2013

Ключевые слова:

DOI: 10.11621/npj.2013.0210

Array

Номер 1, 2013