Статья
Ениколопов С.Н., Ковалёв А.К., Кузнецова Ю.М., Чудова Н.В., Старостина Е.В. Признаки, характерные для текстов, написанных в состоянии фрустрации. // Вестник Московского университета. Серия 14. Психология. — 2019. — №3 — с.66-85
Автор(ы): Ениколопов Сергей Николаевич; Ковалёв Алексей Константинович; Кузнецова Юлия Михайловна; Чудова Наталья Владимировна; Старостина Елена Валериевна
Аннотация
Актуальность.Создание средств для выявления в сетевом контенте негативных психологических состояний относится к наиболее актуальным из задач, порожденных развитием информационных технологий. Имеются данные о том, что речь и текстовая деятельность человека в состоянии фрустрации отличаются рядом особенностей, однако для текстов на русском языке инструмента, позволяющего проводить мониторинговые исследования выраженности фрустрации в сетевом контенте, на настоящий момент не существует.
Цель. Формирование перечня текстовых признаков, позволяющих в ходе автоматического анализа сетевого контекста выделять тексты фрустрированных пользователей.
Методика. Материал исследования: посты и комментарии (в объеме 2—10 предложений) ста русскоязычных пользователей ЖЖ, Пикабу и Фейсбук из России, стран ближнего и дальнего зарубежья в возрасте 27—64 лет. Тексты были разделены на написанные в спокойном состоянии (СТ, 50 текстов каждого пользователя) и в состоянии фрустрации (ФТ, 50 текстов каждого). Метод автоматического анализа текста: созданная в ФИЦ ИУ РАН «Машина РСА», позволяющая определять 197 текстовых признаков. Методы математической обработки: задача классификации текстов решалась с применением алгоритмов машинного обучения.
Результаты. Метод RandomForestс предварительной процедурой бинаризации выявил наиболее значимые признаки, наличие которых в тексте позволяет относить его к классу ФТ: тональность слов; частотность знаков препинания, отрицательных словоформ и местоимений первого лица; количество слов в семантических ролях каузатив, ликвидатив и деструктив; число частиц, инвектив слов и слов с семантикой сопротивления.
Выводы. Совокупность выявленных признаков позволяет достаточно эффективно выделять в сетевом контенте тексты, написанные в состоянии фрустрации; такая оценка носит статистический характер и, не имея индивидуально-диагностической направленности, может быть компонентом мониторинговых мероприятий в целях обеспечения информационно-психологической безопасности.
Разделы журнала: Эмпирические исследования; Теоретические исследования
Поступила: 08.06.2019
Принята к публикации: 19.06.2019
Страницы: 66-85
DOI: 10.11621/vsp.2019.03.66
Ключевые слова: фрустрация; социальные сети; текстовые признаки; автоматический анализ текста; машинное обучение
Доступно в on-line версии с 29.08.2019
Введение
Данная работа продолжает исследование возможностей автоматического анализа русскоязычных текстов, проводимого в интересах психологии (Воронцова и др., 2018; Ениколопов и др., 2019; Кузнецова, Чудова, 2018а). В работе Ю.М. Кузнецовой и Н.В. Чудовой (2018б) представлены результаты пилотажного исследования применения лингвистического анализатора, компьютерного инструмента «Машина РСА», использующего реляционно-ситуационный анализ в работе с русскоязычными текстами (Осипов и др., 2008) для выявления речевых признаков фрустрации. Работы в этом направлении были продолжены и сейчас мы представляем данные исследования 1000 текстов — постов и комментариев 100 пользователей соцсетей.
Фундаментальной научной проблемой, в рамках которой ставились задачи настоящего исследования, является проблема речевых механизмов распространения фрустрации и агрессии. Информационный век породил увеличение числа социальных и информационных источников стресса, а в настоящий момент уже вполне всерьез говорится об информационно-психологическом воздействии как инструменте психической дестабилизации. В традиционной для психологии проблеме возникновения и распространения фрустрации появилась и проблематика, связанная с вопросом о методе выявления состояния фрустрации по текстам пользователей социальных сетей.
Предложенное С. Розенцвейгом системное описание причин, типов и проявлений фрустрации, вариантов реакции на нее, а также представление о фрустрационной толерантности не потеряли своей актуальности. Под фрустрацией С. Розенцвейг понимал реакцию на лишение возможности удовлетворения потребности (первичная фрустрация) или на наличие препятствий к удовлетворению потребности (вторичная фрустрация). С точки зрения теории поля К. Левина, состояние фрустрации, порождаемое наличием преграды на пути удовлетворения потребности, ведет к деструкции поведения и возникновению агрессивных, регрессивных или ирреалистичных форм поведения. Ф.Е. Василюк (1984) в рамках своей типологии кризисных ситуаций определяет фрустрацию как субъективную невозможность реализации существенно значимого мотива. Интересующий нас аспект — проявление состояния фрустрации в текстах — исследуется при анализе связей между типом фрустрационного реагирования и коммуникативной компетентностью (Жарких, 2009), а также в рамках изучения так называемого «языка фрустрации», отражающего широкий спектр отрицательных эмоций, таких, как недовольство, осуждение, неприязнь, отчаяние, тоска, гнев, агрессия, депрессия и т.д. (Колышкина, 2011; Харченко, Коренева, 2007; Хачересова, 2011). Имеются работы, в которых прослеживаются связи состояния фрустрированности субъекта с особенностями его вербальной деятельности, в том числе сетевой (Комалова, 2013; Beatty, McCroskey 1997). Дж. Пеннбейкер опубликовал данные о значимом снижении частоты употребления местоимений «я» и «мой» и увеличении частотности «мы» и «наш» в блогах американцев после воздушной атаки на башни-близнецы в Нью-Йорке (Pennebaker, 2011).
Проявление фрустрации в интернете изучается преимущественно в контексте проблемы депривации каких-либо потребностей пользователей — игровой (Вайнштейн, Смирнова, 2012), эмоционального общения (Ложкина, 2015) и т.п. — либо в связи с реализацией фрустрированности в предпочитаемых формах сетевого взаимодействия (Козлова, 2015). Отражение фрустрации в лингвистических и паралингвистических признаках, а также на уровне организации сетевого взаимодействия может исследоваться с помощью средств дискурсивного анализа (Yu, 2011). Однако наибольшее внимание при изучении процессов, происходящих в социальных сетях, уделяется развитию средств сентимент-анализа, позволяющего характеризовать эмоциональное содержание текста (Beigietal., 2016; Fersinietal., 2016; Kolchynaetal., 2016; и др.). Распространение в сети аффектов — один из предметов исследования киберпсихологии. В частности, сообщается о количественных оценках «вирулентности» аффектогенных сообщений: негативный пост в соцсетях порождает в среднем 1.29 аналогичных сообщений среди друзей пользователя, позитивный — 1.75 (Biggs, 2014; Covielloetal., 2014). Имеются работы, посвященные распространению в интернете отдельных эмоциональных состояний, таких, как переживание одиночества (Cacioppoetal., 2009) или состояние депрессии (Rosenquistetal., 2011), а также различных форм аффективного поведения (Bondetal., 2012) и т.п.
В последнее десятилетие активно развиваются как средства компьютерного лингвистического анализа, проводимого в интересах психодиагностики, так и методы машинного обучения, используемого в задачах классификации текстов. Успехи в данной области можно отследить по результатам тематических sharedtasks(«открытые соревнования»). Формат открытых соревнований подразумевает, что организатор соревнования компьютерных программ подготавливает данные и выкладывает их в открытый доступ вместе с описанием проблемы. Участники (возможно как индивидуальное, так и командное участие) экспериментируют с различными методами и соревнуются друг с другом для создания лучшей модели/подхода, решающего поставленную проблему. Так, соревнование 2011 г., посвященное выявлению лингвистических особенностей предсмертных записок суицидентов, показало, что наилучших результатов можно добиться с помощью гибридного подхода, сочетающего поиск ключевых слов по словарям и тезаурусам с методами разметки последовательностей на основе случайных полей. Результаты, полученные с помощью разных лингвистических анализаторов, комбинировались с помощью нескольких стратегий голосования (Yangetal., 2012). Соревнования CLPsych 2015 были направлены на определение наилучших методов идентификации признаков различных видов психического неблагополучия (депрессия, посттравматическое расстройство, сезонное аффективное расстройство и др.). Высокую эффективность показали такие средства, как метод автоматического выявления значимых символьных n-грамм (Pedersen, 2015), компьютерный лексический анализ, дополняемый анализом параграфических особенностей текста (Coppersmith, 2015), а также кластеризация и тематическое моделирование (Resnik, 2015). Для построения лексических кластеров при выявлении текстовых признаков депрессии и посттравматического синдрома (Preotiuc-Pietro, 2015) применялись следующие методы: кластеризация Брауна, основанная на алгоритме для вывода скрытой Марковской модели (Brown, 1992); спектральная кластеризация, основанная на расчете нормализованной матрицы PMI пар слов; спектральная кластеризация векторных представлений слов, построенных с помощью Word2Vec (Mikolovetal., 2013) и GloVe(Penningtonetal., 2014); кластеризация на основе тематического моделирования с помощью LDA. Соревнование CLPsych2016 также было посвящено задаче оценки степени выраженности в письменной речи признаков психологического неблагополучия автора (Milneetal., 2016). Хорошие результаты дало применение метода стохастического градиента (McKim etal., 2016), в качестве признаков для которого использовались униграммы, взвешенные с помощью TF-IDF и векторные представления текстов, полученные с помощью Sent2Vec(Le, 2014). Эффективен оказался также подход, построенный на метаклассификации (Malmasietal., 2016): результаты предварительно обученных на большом пространстве признаков классификаторов на основе SVM использовались в качестве входных признаков для метаклассификатора на основе случайного леса деревьев решений (random forest). Такой метод позволил добиться более высокого качества классификации по сравнению с простым SVM классификатором с радиальным ядром. В ходе соревнований было показано, что не всегда сложные методы приводят к успеху. Так, в работе К. Брю (Brew, 2016) представлены попытки использовать дополнительно неразмеченные данные. Однако в итоге лучший результат показал простой метод, основанный на SVMс радиальным ядром, который был обучен по размеченной выборке. В качестве признаков использовались униграммы и биграммы, взвешенные по TF-IDF. В соревновании 2017 г. CLEFeRisk2017 (Losadaetal., 2017) задача развития средств выявления признаков психологического неблагополучия уже была конкретизирована для текстов социальных сетей. Проведенное в 2018 г. соревнование “Toxic Comment Classification Challenge” (https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge) было направлено на построение модели, способной обнаруживать различные виды агрессии — угрозы, непристойности, оскорбления. В качестве данных использовались комментарии из обсуждений правок страниц Википедии. Это соревнование получило развитие в 2019 г. “Jigsaw Unintended Biasin Toxicity Classification” (https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification). Задачей выступало построение такой модели определения агрессивности текста, которая была бы способна различать агрессию и грубоватость (например, использование лексики оскорбления без цели нанести оскорбление).
Как можно видеть из представленного обзора, большинство методов автоматического анализа текстов опираются в первую очередь на лексические признаки и редко учитывают синтаксическую и семантическую структуру текста. К тому же в развитии методов анализа русскоязычных текстов работы зарубежных авторов могут служить лишь ориентирами: лексический, синтаксический и семантический строй русского языка имеет свои особенности, изучаемые как в рамках особого направления лингвистики — исследований русской языковой картины мира (Арутюнова, 1987; Шмелёв, 2002), так и в рамках изучения стилистики русского языка (Золотова и др., 2004; Кожина, 2002). Применение средств автоматического анализа сетевого контента, созданных для изучения англоязычных текстов, в отечественных исследованиях наталкивается не только на проблему перевода (когда речь идет о словарях, например, эмотивной лексики), но и на общую для любых переводных методик проблему адаптации. Совершенствование методов искусственного интеллекта в области анализа текста на основе теоретических моделей и эмпирических данных лингвистов-русистов в настоящее время позволяет отечественным психологам не тратить время и силы на адаптацию иноязычных средств, а участвовать в разработке новых отечественных систем интеллектуального анализа текста или применять уже созданные системы.
Цель данной работы — получение данных о специфике текстов, написанных пользователями социальных сетей в состоянии фрустрации, с помощью отечественного лингвистического анализатора Машины РСА.
Методы
В социальных сетях ЖЖ, Пикабу и Фейсбук были собраны посты и комментарии 100 русскоязычных респондентов (граждане России, Украины, Белоруссии, Казахстана, а также русскоязычные граждане Израиля, Франции, Южной Кореи и США в возрасте от 27 до 64 лет). От каждого респондента были взяты 50 текстов, написанных им в спокойном состоянии (СТ), и 50 текстов, написанных в состоянии фрустрации (ФТ). Состояние респондента определялось экспертом, собиравшим тексты, на основе информации о событиях, происходивших в жизни респондента, и на основе оценки самим респондентом собственного состояния как «тяжелого», «взвинченного», «подавленного», «возмущенного» и т.п. Тексты представляют собой короткие посты (от 2 до 10 предложений) и развернутые комментарии (такого же размера). На данном этапе исследования тексты обрабатывались как единый массив, без привязки к автору.
Для автоматического анализа текстов применялся лингвистический анализатор Машины РСА(Ениколопов и др., 2019), позволяющий проводить лексический анализ (на основе специально созданных словарей общим объемом более 51 тыс. лексических единиц), морфологический анализ и частеречный анализ (в настоящий момент применяется 41 показатель, включая известные психолингвистические показатели), а также семантический анализ, опирающийся на работу Словаря предикатов (2.7 тыс. глаголов, причастий, деепричастий и девербативов) и Определителя семантических ролей (92 семантических отношения). Лингвистический анализатор Машины РСА работает с сетевым представлением текста и позволяет отражать текст в виде конструкции сложной графовой структуры, что отличает его от многих аналогичных инструментов, в которых структурные отношения между элементами языка не моделируются. В Машине РСА реализованы функции поиска, вычисления частотных и статистических характеристик для результатов поиска, корпусов или отдельных текстов, функции сравнения текстов или коллекций по их частотным и статистическим характеристикам с определением достоверности различий и выделением наиболее значимых разделяющих характеристик (Ениколопов и др., 2019).
Данные, полученные от Машины РСА, представляют собой набор из 197 признаков. Признаки разбиты на шесть групп:
-
Психолингвистические показатели (Psycholinguisticindicators, PI) — 27 признаков;
-
Семантические роли (Semanticroles,SR) — 92 признака;
-
Семантические связи (Semanticlinks,SL) — 35 признаков;
-
Словари оценки и состояния (AssessmentandConditionDictionaries, ACD) — 20 признаков;
-
Тематические словари (SubjectDictionaries,SD) — 9 признаков;
-
Части речи (PartsofSpeech,PS) — 14 признаков.
Выборка состояла из 1000 текстов, 500 из которых принадлежали к группе ФТ (класс 1) и 500 — к группе СТ (класс 0). В качестве целевого признака выступала принадлежность текста к группе ФТ. Решалась задача классификации.
Проводилось два типа экспериментов. В первом случае обучение происходило на необработанных данных. Во втором случае текстовые признаки, которые принимали значение «ноль» в более чем 70% случаев, бинаризовались: значения, не равные нулю, приравнивались к единице и играли роль индикатора.
В качестве алгоритмов бинарной классификации использовались метод опорных векторов (SVM) и случайный лес (RandomForest), реализованные в библиотеке scikit-learn,метрика качества — доля верных ответов (accuracy). Настройка гиперпараметров производилась подбором по сетке с 5-кратным скользящим контролем.
Эксперименты проводились отдельно для каждой группы признаков. С помощью оценки важности признаков в алгоритме RandomForestв каждой группе отбирались 5 признаков с наибольшими значениями важности. Совокупность этих признаков по всем группам составила группу наиболее важных признаков (TOP 5). Также были проведены эксперименты на всех признаках (ALL). Результаты экспериментов представлены в таблице.
Сравнение результатов классификации
Группа признаков |
Без бинаризации |
С бинаризацией |
||
SVM |
Random Forest |
SVM |
Random Forest |
|
PI |
.727 ± .046 |
.712 ±.112 |
.727±.046 |
.728 ±.081 |
SR |
.545 ±.078 |
.598 ±.056 |
.459±.055 |
.594 ±.077 |
SL |
.539 ±.068 |
.554 ±.066 |
.559±.040 |
.520 ±.076 |
ACD |
.524 ±.072 |
.629 ±.102 |
.524 ±.072 |
.633 ±.089 |
SD |
.509±.033 |
.544 ±.042 |
.509±.033 |
.559 ±.034 |
PS |
.593±.103 |
.538 ±.128 |
.558 ±.079 |
.548 ±.127 |
TOP 5 |
.727±.046 |
.742 ±.040 |
.762 ±.073 |
.787 ±.065 |
ALL |
.738 ±.040 |
.697 ±.079 |
.673 ±.028 |
.697 ±.088 |
Примечание. Жирным шрифтом выделено наибольшее значение метрики качества.
Как видно из результатов, отбор наиболее важных признаков каждой группы (использование показателя TOP 5) и бинаризация признаков приводят к улучшению качества классификации по сравнению с обучением на всех необработанных признаках.
Результаты и их обсуждение
Проведенная обработка позволила выявить текстовые признаки, по которым можно отличить тексты в соцсетях, написанные людьми в состоянии фрустрации. Вот данные о 10 наиболее важных признаках таких текстов, полученные методом RandomForestс предварительной процедурой бинаризации (текстовые признаки перечислены по убыванию значимости):
-
число знаков препинания / число слов;
-
тональность слов;
-
число отрицательных приставок и форм (не, ни, бес, без) / число слов;
-
часть речи: частица;
-
семантическая роль: каузатив;
-
словарь: инвективы;
-
семантическая роль: ликвидатив;
-
доля местоимений 1-го лица;
-
словарь: лексика сопротивления;
-
семантическая роль: деструктив.
Как можно видеть, люди, находящиеся в состоянии фрустрации, часто говорят об объектах как об «испытывающих деструктивное воздействие» (семантическая роль: деструктив, согласно внутреннему определителю лингвистического анализатора РСА), а также о каузации (семантическая роль: каузатив), и объектах такого каузирующего воздействия, «результатом которого является прекращение существования объекта» (семантическая роль: ликвидатив согласно внутреннему определителю лингвистического анализатора РСА). Кроме того, посты и комментарии в социальных сетях, написанные в состоянии фрустрации, содержат много слов с отрицательными приставками (ненадежный, бестолковый, безнадежно, нигде и никогда и т.п.), инвективы (например: подлецы, фрик, мерзкий, гопник, быдло, хапуга, тварь, гадость, солдафон, дурацкий, свинство и т.п.) и лексику сопротивления (например: борьба, возражаем, недопустимо, оппозиционер, критикуют, возмущение, бунтовать, голодовка, пикетировать, неподцензурный, протестовал и т.п.). Также в таком состоянии человек чаще говорит о себе и своей группе (например: нам, учителям; мои дети; я этого не люблю) и говорит при этом более эмоционально как на лексическом уровне (например: чудовищный, бравый, прекрасно, счастливый, хрень, чертовски, жахнуло, рад, орать, позор, стыдно, помойка, ужасно, офигеть, ад, вопли, страшный, стыд, забавный и т.п.), так и на синтаксическом (например: большое число знаков препинания).
В целом полученные результаты легко интерпретируемы и не требуют специального обсуждения. Отметим лишь, что использование уникального при автоматическом анализе текстов реляционно-ситуационного анализа, позволяющего выявлять семантические роли объектов, упоминаемых в тексте, показало свою значимость в изучаемой предметной области. Оказалось, что тексты, написанные в состоянии фрустрации, содержат повышенное число слов в семантических позициях «причина события», «объект разрушения» и «ликвидируемый объект». Также важными оказались использование текстовых параметров всех типов (лексических, морфологических, синтаксических, семантических) и обработка данных об их встречаемости в текстах с помощью метода Random Forestс бинаризацией.
Заключение
Результаты, полученные с помощью нового инструмента автоматического анализа текста — Машины РСА, показывают, что ее лингвистический анализатор может применяться в задачах, требующих поиска сетевого контента, содержащего высказывания, сделанные людьми в состоянии фрустрации. Выявленные в исследовании текстовые характеристики позволяют с определенной долей уверенности определять состояние автора в момент написания текста (при условии, что в распоряжении исследователя имеется коллекция текстов ФТ и СТ).
В завершение мы хотели бы подчеркнуть ограничения, существующие при использовании как наших результатов, так и любых результатов в данной области исследований. Во-первых, оценка состояния человека по созданному им тексту не может рассматриваться как результат психодиагностического обследования и применяться в задачах постановки диагноза. Полученные с помощью автоматического анализа текста оценки могут применяться в широком круге задач информационно-психологической безопасности, выделения группы риска по социальным и психологическим стрессорам, социотерапии. Во-вторых, следует учитывать, что помимо эмоционального состояния автора на текст оказывают влияние его стабильные личностные особенности и та задача, которую он решает при создании текста.
Для цитирования статьи:
Ениколопов С.Н., Ковалёв А.К., Кузнецова Ю.М., Чудова Н.В., Старостина Е.В. Признаки, характерные для текстов, написанных в состоянии фрустрации. // Вестник Московского университета. Серия 14. Психология. — 2019. — №3 — с.66-85