Статья

Ениколопов С.Н., Ковалёв А.К., Кузнецова Ю.М., Чудова Н.В., Старостина Е.В. Признаки, характерные для текстов, написанных в состоянии фрустрации. // Вестник Московского университета. Серия 14. Психология. — 2019. — №3 — с.66-85

Автор(ы): Ениколопов Сергей Николаевич; Ковалёв Алексей Константинович; Кузнецова Юлия Михайловна; Чудова Наталья Владимировна; Старостина Елена Валериевна

Аннотация

Актуальность.Создание средств для выявления в сетевом контенте негативных психологических состояний относится к наиболее актуальным из задач, порожденных развитием информационных технологий. Имеются данные о том, что речь и текстовая деятельность человека в состоянии фрустрации отличаются рядом особенностей, однако для текстов на русском языке инструмента, позволяющего проводить мониторинговые исследования выраженности фрустрации в сетевом контенте, на настоящий момент не существует.

Цель. Формирование перечня текстовых признаков, позволяющих в ходе автоматического анализа сетевого контекста выделять тексты фрустрированных пользователей.

Методика. Материал исследования: посты и комментарии (в объеме 2—10 предложений) ста русскоязычных пользователей ЖЖ, Пикабу и Фейсбук из России, стран ближнего и дальнего зарубежья в возрасте 27—64 лет. Тексты были разделены на написанные в спокойном состоянии (СТ, 50 текстов каждого пользователя) и в состоянии фрустрации (ФТ, 50 текстов каждого). Метод автоматического анализа текста: созданная в ФИЦ ИУ РАН «Машина РСА», позволяющая определять 197 текстовых признаков. Методы математической обработки: задача классификации текстов решалась с применением алгоритмов машинного обучения.

Результаты. Метод RandomForestс предварительной процедурой бинаризации выявил наиболее значимые признаки, наличие которых в тексте позволяет относить его к классу ФТ: тональность слов; частотность знаков препинания, отрицательных словоформ и местоимений первого лица; количество слов в семантических ролях каузатив, ликвидатив и деструктив; число частиц, инвектив слов и слов с семантикой сопротивления.

Выводы. Совокупность выявленных признаков позволяет достаточно эффективно выделять в сетевом контенте тексты, написанные в состоянии фрустрации; такая оценка носит статистический характер и, не имея индивидуально-диагностической направленности, может быть компонентом мониторинговых мероприятий в целях обеспечения информационно-психологической безопасности.

Разделы журнала: Эмпирические исследования; Теоретические исследования

Поступила: 08.06.2019

Принята к публикации: 19.06.2019

Страницы: 66-85

DOI: 10.11621/vsp.2019.03.66

Ключевые слова: фрустрация; социальные сети; текстовые признаки; автоматический анализ текста; машинное обучение

Доступно в on-line версии с 29.08.2019

Введение

Данная работа продолжает исследование возможностей автоматического анализа русскоязычных текстов, проводимого в интересах психологии (Воронцова и др., 2018; Ениколопов и др., 2019; Кузнецова, Чудова, 2018а). В работе Ю.М. Кузнецовой и Н.В. Чудовой (2018б) представлены результаты пилотажного исследования применения лингвистического анализатора, компьютерного инструмента «Машина РСА», использующего реляционно-ситуационный анализ в работе с русскоязычными текстами (Осипов и др., 2008) для выявления речевых признаков фрустрации. Работы в этом направлении были продолжены и сейчас мы представляем данные исследования 1000 текстов — постов и комментариев 100 пользователей соцсетей.

Фундаментальной научной проблемой, в рамках которой ставились задачи настоящего исследования, является проблема речевых механизмов распространения фрустрации и агрессии. Информационный век породил увеличение числа социальных и информационных источников стресса, а в настоящий момент уже вполне всерьез говорится об информационно-психологическом воздействии как инструменте психической дестабилизации. В традиционной для психологии проблеме возникновения и распространения фрустрации появилась и проблематика, связанная с вопросом о методе выявления состояния фрустрации по текстам пользователей социальных сетей.

Предложенное С. Розенцвейгом системное описание причин, типов и проявлений фрустрации, вариантов реакции на нее, а также представление о фрустрационной толерантности не потеряли своей актуальности. Под фрустрацией С. Розенцвейг понимал реакцию на лишение возможности удовлетворения потребности (первичная фрустрация) или на наличие препятствий к удовлетворению потребности (вторичная фрустрация). С точки зрения теории поля К. Левина, состояние фрустрации, порождаемое наличием преграды на пути удовлетворения потребности, ведет к деструкции поведения и возникновению агрессивных, регрессивных или ирреалистичных форм поведения. Ф.Е. Василюк (1984) в рамках своей типологии кризисных ситуаций определяет фрустрацию как субъективную невозможность реализации существенно значимого мотива. Интересующий нас аспект — проявление состояния фрустрации в текстах — исследуется при анализе связей между типом фрустрационного реагирования и коммуникативной компетентностью (Жарких, 2009), а также в рамках изучения так называемого «языка фрустрации», отражающего широкий спектр отрицательных эмоций, таких, как недовольство, осуждение, неприязнь, отчаяние, тоска, гнев, агрессия, депрессия и т.д. (Колышкина, 2011; Харченко, Коренева, 2007; Хачересова, 2011). Имеются работы, в которых прослеживаются связи состояния фрустрированности субъекта с особенностями его вербальной деятельности, в том числе сетевой (Комалова, 2013; Beatty, McCroskey 1997). Дж. Пеннбейкер опубликовал данные о значимом снижении частоты употребления местоимений «я» и «мой» и увеличении частотности «мы» и «наш» в блогах американцев после воздушной атаки на башни-близнецы в Нью-Йорке (Pennebaker, 2011).

Проявление фрустрации в интернете изучается преимущественно в контексте проблемы депривации каких-либо потребностей пользователей — игровой (Вайнштейн, Смирнова, 2012), эмоционального общения (Ложкина, 2015) и т.п. — либо в связи с реализацией фрустрированности в предпочитаемых формах сетевого взаимодействия (Козлова, 2015). Отражение фрустрации в лингвистических и паралингвистических признаках, а также на уровне организации сетевого взаимодействия может исследоваться с помощью средств дискурсивного анализа (Yu, 2011). Однако наибольшее внимание при изучении процессов, происходящих в социальных сетях, уделяется развитию средств сентимент-анализа, позволяющего характеризовать эмоциональное содержание текста (Beigietal., 2016; Fersinietal., 2016; Kolchynaetal., 2016; и др.). Распространение в сети аффектов — один из предметов исследования киберпсихологии. В частности, сообщается о количественных оценках «вирулентности» аффектогенных сообщений: негативный пост в соцсетях порождает в среднем 1.29 аналогичных сообщений среди друзей пользователя, позитивный — 1.75 (Biggs, 2014; Covielloetal., 2014). Имеются работы, посвященные распространению в интернете отдельных эмоциональных состояний, таких, как переживание одиночества (Cacioppoetal., 2009) или состояние депрессии (Rosenquistetal., 2011), а также различных форм аффективного поведения (Bondetal., 2012) и т.п.

В последнее десятилетие активно развиваются как средства компьютерного лингвистического анализа, проводимого в интересах психодиагностики, так и методы машинного обучения, используемого в задачах классификации текстов. Успехи в данной области можно отследить по результатам тематических sharedtasks(«открытые соревнования»). Формат открытых соревнований подразумевает, что организатор соревнования компьютерных программ подготавливает данные и выкладывает их в открытый доступ вместе с описанием проблемы. Участники (возможно как индивидуальное, так и командное участие) экспериментируют с различными методами и соревнуются друг с другом для создания лучшей модели/подхода, решающего поставленную проблему. Так, соревнование 2011 г., посвященное выявлению лингвистических особенностей предсмертных записок суицидентов, показало, что наилучших результатов можно добиться с помощью гибридного подхода, сочетающего поиск ключевых слов по словарям и тезаурусам с методами разметки последовательностей на основе случайных полей. Результаты, полученные с помощью разных лингвистических анализаторов, комбинировались с помощью нескольких стратегий голосования (Yangetal., 2012). Соревнования CLPsych 2015 были направлены на определение наилучших методов идентификации признаков различных видов психического неблагополучия (депрессия, посттравматическое расстройство, сезонное аффективное расстройство и др.). Высокую эффективность показали такие средства, как метод автоматического выявления значимых символьных n-грамм (Pedersen, 2015), компьютерный лексический анализ, дополняемый анализом параграфических особенностей текста (Coppersmith, 2015), а также кластеризация и тематическое моделирование (Resnik, 2015). Для построения лексических кластеров при выявлении текстовых признаков депрессии и посттравматического синдрома (Preotiuc-Pietro, 2015) применялись следующие методы: кластеризация Брауна, основанная на алгоритме для вывода скрытой Марковской модели (Brown, 1992); спектральная кластеризация, основанная на расчете нормализованной матрицы PMI пар слов; спектральная кластеризация векторных представлений слов, построенных с помощью Word2Vec (Mikolovetal., 2013) и GloVe(Penningtonetal., 2014); кластеризация на основе тематического моделирования с помощью LDA. Соревнование CLPsych2016 также было посвящено задаче оценки степени выраженности в письменной речи признаков психологического неблагополучия автора (Milneetal., 2016). Хорошие результаты дало применение метода стохастического градиента (McKim etal., 2016), в качестве признаков для которого использовались униграммы, взвешенные с помощью TF-IDF и векторные представления текстов, полученные с помощью Sent2Vec(Le, 2014). Эффективен оказался также подход, построенный на метаклассификации (Malmasietal., 2016): результаты предварительно обученных на большом пространстве признаков классификаторов на основе SVM использовались в качестве входных признаков для метаклассификатора на основе случайного леса деревьев решений (random forest). Такой метод позволил добиться более высокого качества классификации по сравнению с простым SVM классификатором с радиальным ядром. В ходе соревнований было показано, что не всегда сложные методы приводят к успеху. Так, в работе К. Брю (Brew, 2016) представлены попытки использовать дополнительно неразмеченные данные. Однако в итоге лучший результат показал простой метод, основанный на SVMс радиальным ядром, который был обучен по размеченной выборке. В качестве признаков использовались униграммы и биграммы, взвешенные по TF-IDF. В соревновании 2017 г. CLEFeRisk2017 (Losadaetal., 2017) задача развития средств выявления признаков психологического неблагополучия уже была конкретизирована для текстов социальных сетей. Проведенное в 2018 г. соревнование “Toxic Comment Classification Challenge” (https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge) было направлено на построение модели, способной обнаруживать различные виды агрессии — угрозы, непристойности, оскорбления. В качестве данных использовались комментарии из обсуждений правок страниц Википедии. Это соревнование получило развитие в 2019 г. “Jigsaw Unintended Biasin Toxicity Classification” (https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification). Задачей выступало построение такой модели определения агрессивности текста, которая была бы способна различать агрессию и грубоватость (например, использование лексики оскорбления без цели нанести оскорбление).

Как можно видеть из представленного обзора, большинство методов автоматического анализа текстов опираются в первую очередь на лексические признаки и редко учитывают синтаксическую и семантическую структуру текста. К тому же в развитии методов анализа русскоязычных текстов работы зарубежных авторов могут служить лишь ориентирами: лексический, синтаксический и семантический строй русского языка имеет свои особенности, изучаемые как в рамках особого направления лингвистики — исследований русской языковой картины мира (Арутюнова, 1987; Шмелёв, 2002), так и в рамках изучения стилистики русского языка (Золотова и др., 2004; Кожина, 2002). Применение средств автоматического анализа сетевого контента, созданных для изучения англоязычных текстов, в отечественных исследованиях наталкивается не только на проблему перевода (когда речь идет о словарях, например, эмотивной лексики), но и на общую для любых переводных методик проблему адаптации. Совершенствование методов искусственного интеллекта в области анализа текста на основе теоретических моделей и эмпирических данных лингвистов-русистов в настоящее время позволяет отечественным психологам не тратить время и силы на адаптацию иноязычных средств, а участвовать в разработке новых отечественных систем интеллектуального анализа текста или применять уже созданные системы.

Цель данной работы — получение данных о специфике текстов, написанных пользователями социальных сетей в состоянии фрустрации, с помощью отечественного лингвистического анализатора Машины РСА.

Методы

В социальных сетях ЖЖ, Пикабу и Фейсбук были собраны посты и комментарии 100 русскоязычных респондентов (граждане России, Украины, Белоруссии, Казахстана, а также русскоязычные граждане Израиля, Франции, Южной Кореи и США в возрасте от 27 до 64 лет). От каждого респондента были взяты 50 текстов, написанных им в спокойном состоянии (СТ), и 50 текстов, написанных в состоянии фрустрации (ФТ). Состояние респондента определялось экспертом, собиравшим тексты, на основе информации о событиях, происходивших в жизни респондента, и на основе оценки самим респондентом собственного состояния как «тяжелого», «взвинченного», «подавленного», «возмущенного» и т.п. Тексты представляют собой короткие посты (от 2 до 10 предложений) и развернутые комментарии (такого же размера). На данном этапе исследования тексты обрабатывались как единый массив, без привязки к автору.

Для автоматического анализа текстов применялся лингвистический анализатор Машины РСА(Ениколопов и др., 2019), позволяющий проводить лексический анализ (на основе специально созданных словарей общим объемом более 51 тыс. лексических единиц), морфологический анализ и частеречный анализ (в настоящий момент применяется 41 показатель, включая известные психолингвистические показатели), а также семантический анализ, опирающийся на работу Словаря предикатов (2.7 тыс. глаголов, причастий, деепричастий и девербативов) и Определителя семантических ролей (92 семантических отношения). Лингвистический анализатор Машины РСА работает с сетевым представлением текста и позволяет отражать текст в виде конструкции сложной графовой структуры, что отличает его от многих аналогичных инструментов, в которых структурные отношения между элементами языка не моделируются. В Машине РСА реализованы функции поиска, вычисления частотных и статистических характеристик для результатов поиска, корпусов или отдельных текстов, функции сравнения текстов или коллекций по их частотным и статистическим характеристикам с определением достоверности различий и выделением наиболее значимых разделяющих характеристик (Ениколопов и др., 2019).

Данные, полученные от Машины РСА, представляют собой набор из 197 признаков. Признаки разбиты на шесть групп:

Психолингвистические показатели (Psycholinguisticindicators, PI) — 27 признаков;
Семантические роли (Semanticroles,SR) — 92 признака;
Семантические связи (Semanticlinks,SL) — 35 признаков;
Словари оценки и состояния (AssessmentandConditionDictionaries, ACD) — 20 признаков;
Тематические словари (SubjectDictionaries,SD) — 9 признаков;
Части речи (PartsofSpeech,PS) — 14 признаков.

Выборка состояла из 1000 текстов, 500 из которых принадлежали к группе ФТ (класс 1) и 500 — к группе СТ (класс 0). В качестве целевого признака выступала принадлежность текста к группе ФТ. Решалась задача классификации.

Проводилось два типа экспериментов. В первом случае обучение происходило на необработанных данных. Во втором случае текстовые признаки, которые принимали значение «ноль» в более чем 70% случаев, бинаризовались: значения, не равные нулю, приравнивались к единице и играли роль индикатора.

В качестве алгоритмов бинарной классификации использовались метод опорных векторов (SVM) и случайный лес (RandomForest), реализованные в библиотеке scikit-learn,метрика качества — доля верных ответов (accuracy). Настройка гиперпараметров производилась подбором по сетке с 5-кратным скользящим контролем.

Эксперименты проводились отдельно для каждой группы признаков. С помощью оценки важности признаков в алгоритме RandomForestв каждой группе отбирались 5 признаков с наибольшими значениями важности. Совокупность этих признаков по всем группам составила группу наиболее важных признаков (TOP 5). Также были проведены эксперименты на всех признаках (ALL). Результаты экспериментов представлены в таблице.

Сравнение результатов классификации

Группа признаков	Без бинаризации		С бинаризацией
Группа признаков	SVM	Random Forest	SVM	Random Forest
PI	.727 ± .046	.712 ±.112	.727±.046	.728 ±.081
SR	.545 ±.078	.598 ±.056	.459±.055	.594 ±.077
SL	.539 ±.068	.554 ±.066	.559±.040	.520 ±.076
ACD	.524 ±.072	.629 ±.102	.524 ±.072	.633 ±.089
SD	.509±.033	.544 ±.042	.509±.033	.559 ±.034
PS	.593±.103	.538 ±.128	.558 ±.079	.548 ±.127
TOP 5	.727±.046	.742 ±.040	.762 ±.073	.787 ±.065
ALL	.738 ±.040	.697 ±.079	.673 ±.028	.697 ±.088

Примечание. Жирным шрифтом выделено наибольшее значение метрики качества.

Как видно из результатов, отбор наиболее важных признаков каждой группы (использование показателя TOP 5) и бинаризация признаков приводят к улучшению качества классификации по сравнению с обучением на всех необработанных признаках.

Результаты и их обсуждение

Проведенная обработка позволила выявить текстовые признаки, по которым можно отличить тексты в соцсетях, написанные людьми в состоянии фрустрации. Вот данные о 10 наиболее важных признаках таких текстов, полученные методом RandomForestс предварительной процедурой бинаризации (текстовые признаки перечислены по убыванию значимости):

число знаков препинания / число слов;
тональность слов;
число отрицательных приставок и форм (не, ни, бес, без) / число слов;
часть речи: частица;
семантическая роль: каузатив;
словарь: инвективы;
семантическая роль: ликвидатив;
доля местоимений 1-го лица;
словарь: лексика сопротивления;
семантическая роль: деструктив.

Как можно видеть, люди, находящиеся в состоянии фрустрации, часто говорят об объектах как об «испытывающих деструктивное воздействие» (семантическая роль: деструктив, согласно внутреннему определителю лингвистического анализатора РСА), а также о каузации (семантическая роль: каузатив), и объектах такого каузирующего воздействия, «результатом которого является прекращение существования объекта» (семантическая роль: ликвидатив согласно внутреннему определителю лингвистического анализатора РСА). Кроме того, посты и комментарии в социальных сетях, написанные в состоянии фрустрации, содержат много слов с отрицательными приставками (ненадежный, бестолковый, безнадежно, нигде и никогда и т.п.), инвективы (например: подлецы, фрик, мерзкий, гопник, быдло, хапуга, тварь, гадость, солдафон, дурацкий, свинство и т.п.) и лексику сопротивления (например: борьба, возражаем, недопустимо, оппозиционер, критикуют, возмущение, бунтовать, голодовка, пикетировать, неподцензурный, протестовал и т.п.). Также в таком состоянии человек чаще говорит о себе и своей группе (например: нам, учителям; мои дети; я этого не люблю) и говорит при этом более эмоционально как на лексическом уровне (например: чудовищный, бравый, прекрасно, счастливый, хрень, чертовски, жахнуло, рад, орать, позор, стыдно, помойка, ужасно, офигеть, ад, вопли, страшный, стыд, забавный и т.п.), так и на синтаксическом (например: большое число знаков препинания).

В целом полученные результаты легко интерпретируемы и не требуют специального обсуждения. Отметим лишь, что использование уникального при автоматическом анализе текстов реляционно-ситуационного анализа, позволяющего выявлять семантические роли объектов, упоминаемых в тексте, показало свою значимость в изучаемой предметной области. Оказалось, что тексты, написанные в состоянии фрустрации, содержат повышенное число слов в семантических позициях «причина события», «объект разрушения» и «ликвидируемый объект». Также важными оказались использование текстовых параметров всех типов (лексических, морфологических, синтаксических, семантических) и обработка данных об их встречаемости в текстах с помощью метода Random Forestс бинаризацией.

Заключение

Результаты, полученные с помощью нового инструмента автоматического анализа текста — Машины РСА, показывают, что ее лингвистический анализатор может применяться в задачах, требующих поиска сетевого контента, содержащего высказывания, сделанные людьми в состоянии фрустрации. Выявленные в исследовании текстовые характеристики позволяют с определенной долей уверенности определять состояние автора в момент написания текста (при условии, что в распоряжении исследователя имеется коллекция текстов ФТ и СТ).

В завершение мы хотели бы подчеркнуть ограничения, существующие при использовании как наших результатов, так и любых результатов в данной области исследований. Во-первых, оценка состояния человека по созданному им тексту не может рассматриваться как результат психодиагностического обследования и применяться в задачах постановки диагноза. Полученные с помощью автоматического анализа текста оценки могут применяться в широком круге задач информационно-психологической безопасности, выделения группы риска по социальным и психологическим стрессорам, социотерапии. Во-вторых, следует учитывать, что помимо эмоционального состояния автора на текст оказывают влияние его стабильные личностные особенности и та задача, которую он решает при создании текста.

Для цитирования статьи:

Ениколопов С.Н., Ковалёв А.К., Кузнецова Ю.М., Чудова Н.В., Старостина Е.В. Признаки, характерные для текстов, написанных в состоянии фрустрации. // Вестник Московского университета. Серия 14. Психология. — 2019. — №3 — с.66-85