Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Cybernetics and programming
Reference:

Software complex for the formation of situationally conditioned patterns of physical signals

Bodrina Natalia

PhD in Technical Science

Associate Professor, Department of Process Automation, Tver State Technical University

170026, Russia, g. Tver', prospekt Lenina, 25, of. 327

vavilovani@mail.ru
Sidorov Konstantin

PhD in Technical Science

Assistant Professor, Department of Process Automation, Tver State Technical University

170026, Russia, g. Tver', prospekt Lenina, 25, of. 327

bmisidorov@mail.ru
Filatova Natalia

Doctor of Technical Science

Professor, Department of Process Automation, Tver State Technical University

170026, Russia, g. Tver', prospekt Lenina, 25, of. 243

Nfilatova99@mail.ru
Shemaev Pavel

Senior Lecturer, Department of Process Automation, Tver State Technical University

170026, Russia, g. Tver', prospekt Lenina, 25, of. 327

ryuk-apple@yandex.ru

DOI:

10.25136/2644-5522.2018.6.28151

Received:

26-11-2018


Published:

15-01-2019


Abstract: The subject of research is the task of creating tools for the formation of information resources with samples of physical signals recorded by a person experiencing an emotional reaction caused by a certain informational stimulus. The results of the analysis of the most well-known national databases with examples of emotional reactions in the patterns of English and French speech, photographs of people, samples of cardiograms, galvanic skin reactions, heart rate and other physical signals are presented. The structure of the new hardware-software complex for the formation and maintenance of an open information resource that integrates examples of recordings of Russian speech with recordings of other physical signals recorded by a person during emotional reactions of a different sign is considered. Conducted field experiments with hardware and software. For the formation of vector patterns of patterns of physical signals used methods of spectral analysis and nonlinear dynamics. The database is developed using systems analysis methods. The new results include the structure of software and information support; features of the methodological support, allowing to register objectively confirmed changes in the emotional state of a person, features of technical support supporting registration of biomedical signals through five channels: video, audio, electroencephalogram, electrocardiogram, electromyogram, as well as the structure and features of an open online version of the multimodal emotion base. The creation and periodic updating of the content of the database of patterns of situational responses makes available to all interested users complete information on each experiment, including recordings of speech and physical signals, as well as data on the methodology of experiments and observation protocols.


Keywords:

database, software complex, emotional reaction, Russian speech, electroencephalogram, stimulated emotion, base of emotional reactions, attractor, base of situational responses, toolkit for filling the database


Введение. На современном этапе развития средств регистрации и воспроизведения звука мы можем себе позволить рассматривать весь информационный поток, который формирует говорящий в процессе коммуникации. Любой образец устной речи содержит информацию не только о тексте высказывания, но и некоторую дополнительную компоненту, связанную с личной оценкой говорящего темы беседы. Эта личная оценка проявляется в эмоциональных оттенках речи и может быть выражена достаточно сильно или, наоборот, тщательно замаскирована. Привычка к этому дополнительному информационному фону с одной стороны расширяет коммуникационные возможности, а с другой порождает ряд технических задач, связанных с созданием моделей и алгоритмов дешифровки латентной информации, инспирированной эмоциональными реакциями собеседника.

Системы, способные генерировать эмоционально окрашенную речь, или распознающие эмоциональное состояние человека, необходимы в виртуальном обучении, при исследовании нарушений функций мозга, в процедурах идентификации контента, в интерактивных развлечениях, а также могут быть полезны людям, имеющим какие-либо речевые отклонения. Учитывая, что на данный момент механизм формирования эмоциональных реакций человеком описан только на качественном уровне, более того, так и не решен окончательно вопрос о классификаторе эмоций, для разработки программ-интерпретаторов эмоций применяют экспериментально-статистический подход, а также нейросетевые классификаторы [1, 2, 3, 4, 5, 6, 7, 8].

Успешная разработка модулей распознавания эмоций по различным физическим сигналам, регистрируемым у человека переживающего эмоцию, возможна при наличии большого количества примеров таких сигналов. Этнические исследования показывают, что выражение эмоций формируется и изменяется с течением истории лингвистики. Очевидно, в качестве источников эмоциональных реакций должны использоваться носители соответствующего языка.

В современных базах эмоциональных реакций [7, 8] обычно содержатся отдельные примеры ярко выраженных признаков, по которым можно классифицировать объекты - источники эмоциональных реакций. Менее представительны выборки, иллюстрирующие слабые эмоциональные реакции. Необходим инструмент, который позволит аккумулировать результаты экспериментов по исследованию эмоциональных реакций и непрерывно расширять число доступных примеров.

Современные базы примеров эмоциональных реакций. Ранние исследования эмоциональных реакций часто основаны на записях речи профессиональных актеров, которые имитируют различные эмоции [1, 2, 3, 4, 6, 9]. На основе идентичных текстов выполняется анализ акустических признаков. Такие эмоции обычно успешно распознаются сторонними слушателями. Тем не менее, не известно насколько правильно актер способен представить все характеристики речи, проявляющиеся у обычных людей в момент, когда они испытывают подобные эмоции. Имитируемые эмоции воспроизводятся по заданию и не нуждаются в стимуле.

Ряд современных исследователей (таблица 1) вместо имитации эмоций используют образцы естественных эмоций, которые вызываются специально подготовленными эмоциогенными стимулами. Стимулы или их описания включаются в состав информационного обеспечения баз данных с паттернами эмоций. Имеются публикации, внимание которых сосредоточено на классификации, оценке и разметке стимулов [5, 10].

Таблица 1. Базы примеров стимулированных эмоциональных реакций

Название, год, язык

Испытуемые

Стимулы

Виды хранимых данных

DEAP data [10],

2005, англ.

не актеры

1-минутные видео со звуком (более 120)

- ЭЭГ;

- физиол. замеры;

- видео лица;

- оценки испытуемых

Film Stim [5],

2010, англ., фр.

не актеры

1-7-минутные видео со звуком (более 70)

- опрос

Cognitive Human Computer Interaction Lab [11],

2011, англ.

не актеры

записи классической музыки

- ЭЭГ

MAHNOB-HCI [7],

2012, англ.

не актеры

видео со звуком (более 30), изображения (более 20)

- ЭЭГ;

- физиол. замеры;

- видео лица и тела;

- речь;

- положение зрачка;

- оценки испытуемых

Recola Databаse [8],

2013, фр.

не актеры

взаимодействие с человеком-помощником

- ЭЭГ;

- ЭКГ;

- речь;

- видео лица;

- оценки испытуемых

Особую ценность приобретают записи эмоций дополненные объективными подтверждениями фактов изменения физического состояния человека, эмоции которого регистрируются. При таком подходе к речевым образцам добавляются другие биомедицинские сигналы (кардиограммы, показатели кожно-гальванических реакций и частоты сердечных сокращений, миограммы, электроэцефалограммы и т.д.), регистрируемые на временном интервале, когда испытуемый демонстрирует эмоциональную реакцию [7, 8, 10]. В экспериментах с естественными эмоциональными реакциями инструктор убеждает испытуемых не сдерживать выражение эмоций, однако в реальных социальных взаимодействиях выражение личных чувств часто подавляется в связи с определенными этическими ограничениями. По этой причине некоторые исследователи используют в качестве источников эмоциогенных стимулов других людей. В эксперименте испытуемый совместно с помощником должен решить определенную задачу. В этом случае в качестве стимула выступает собственно процесс коммуникации [7, 8].

Программно-аппаратный комплекс для формирования образцов ситуационных откликов. Для решения задач, связанных с созданием специализированной базы данных, объединяющей образцы русской речи и синхронно зарегистрированных физических сигналов, подтверждающих изменение эмоционального состояния говорившего, использованы отдельные компоненты биотехнической системы «EEG-Speech» [12]. На рисунке 1 показан состав и схема взаимодействия компонентов инструментария для формирования базы ситуационных откликов в виде паттернов биомедицинских сигналов на основе биотехнической системы «EEG-Speech». На данном этапе реализовано пять каналов регистрации эмоциональных реакций: видео, звук, ЭЭГ, миограмма и информационный (отчет испытуемого).

Рисунок 1. Состав инструментария для формирования базы ситуационных откликов в виде паттернов биомедицинских сигналов

Персональный компьютер служит для предъявления визуальных или акустических стимулов и содержит базу стимулов, а также всё программное обеспечение, необходимое для их воспроизведения. Обонятельные стимулы подаются испытуемому с помощью специального устройства [13, с. 78]. Управление процессом предъявления обонятельных стимулов выполняет основная рабочая станция (А). Каждый сеанс эксперимента проходит по специально подготовленному сценарию. На рабочую станцию (А) поступают биомедицинские сигналы, которые сохраняются в соответствующие базы данных. Полученные сигналы обрабатываются и очищаются от помех и артефактов.

Программное обеспечение включает в себя три группы модулей (рисунок 1) [13, с. 79]: регистрации, обработки и сохранения биомедицинских сигналов; формирования моделей биомедицинских сигналов; мониторинга эмоций. Модули реализованы в среде MATLAB и на языке C#. Программное обеспечение установлено на основной рабочей станции (А), но может быть использовано автономно на любом персональном компьютере, так что обработка результатов экспериментов может проходить удаленно и в распределенном режиме. Коллекция паттернов речевых образцов и физических сигналов дополняется векторными моделями, включающими оценки признаков, определенных для соответствующего образца. Для формирования этих моделей используются методы спектрального анализа и нелинейной динамики [14]. Отличительной особенностью рассматриваемого программного комплекса является реализация методов оценки знака и уровня эмоциональной реакции путем анализа исходного сигнала (рисунок 2) и последующей реконструкции аттрактора (рисунок 3), который в дальнейшем и выступает в качестве объекта исследования.

а) б)

в)

Рисунок 2. Временные ряды исходных биомедицинских сигналов: а – ЭЭГ; б – ЭМГ; в – речевой сигнал

Так, для распознавания знака эмоций ряд авторов [14, 15] используют показатель корреляционной размерности восстановленного аттрактора. Например, в работе [15] отмечается значительное увеличение корреляционной размерности в условиях эмоционального переживания по сравнению с нейтральным состоянием; исследовались образцы «горе» и «радость», т.е. негативные и позитивные реакции.

а) б)

в)

Рисунок 3. Двумерные проекции аттракторов, реконструированных из биомедицинских сигналов: а) – из ЭЭГ-сигнала; б) – из ЭМГ-сигнала; в) – из звукового сигнала

Признаки изменения знака эмоции для образцов русской речи. Исследование аттракторов, реконструированных по образцам русской речи, а также ЭЭГ-сигналов, показало, что при переживании испытуемым положительных эмоций размер аттрактора увеличивается, а при отрицательных наоборот уменьшается. Этот процесс сопровождается изменением количество точек вблизи начала координат (в окрестностях центра аттрактора). В работах [13, 16] мы предложили качестве меры плотности аттрактора в центре использовать показатель:

ρj = kj / Sj , kj = hj + rj / 2 , (1)

который представляет собой отношение количество точек аттрактора (kj), связанных с одной из ячеек ортогональной сетки, покрывающей проекцию аттрактора, к площади этой ячейки (Sj). Показатель hj – число точек, оказавшихся внутри j-ой ячейки. Количество точек, оказавшихся на границе j-ой и j+1-ой ячейки (rj), делится поровну между ними. Экспериментально установлено, что наличие шумовой компоненты практически не отражается на классифицирующей способности параметра ρj [17].

В общей сложности проанализировано 74 фрагмента речевого сигнала от 8 испытуемых (по 3 стимула для каждого знака эмоций). Отмечено, что практически у всех испытуемых, находящихся под влиянием негативного стимула, наблюдается рост показателя ρj относительно нейтрального состояния (от 2 до 55 %). При позитивном видео-стимуле данный параметр наоборот имеет тенденцию к снижению (от 5 до 38 %). Полученный результат подтверждает гипотезу о взаимосвязи знака эмоционального воздействия и плотности аттрактора.

Аналогичные эксперименты выполнены с образцами речевых записей из международной базы данных Emo-DB [1], содержащей аудиозаписи эмоционально окрашенной речи на немецком языке от 10 различных дикторов. Для анализа были взяты сигналы с отрицательным стимулом (отвращение), положительным (счастье) и нейтральным. Результаты усредненных значений ρj для нескольких испытуемых по одной и той же фразе представлены на рисунке 4.

Рисунок 4. Зависимость плотности аттрактора в центре (ρj) от знака эмоций для образцов русской и немецкой речи

В отличие от образцов русской речи, для немецкой речи характерно увеличение (в среднем на 20%) числа точек в центре аттрактора при стимуляции положительными стимулами относительно нейтрального состояния. При отрицательных стимулах также наблюдается повышение плотности ρj (в среднем на 10 %).

Исследование динамики эмоций на основе анализа ЭЭГ-сигналов. В серии экспериментов в качестве эмоциогенных стимулов использовались видеоролики со звуком продолжительностью 2-4 минуты. Испытуемыми были студенты и аспиранты ТвГТУ от 18 до 25 лет. Каждый видео-стимул предварительно маркировался испытуемым в соответствии со знаком эмоциональной реакции. В ходе серии экспериментов испытуемому последовательно предъявлялись несколько негативных стимулов (-Э), а потом несколько позитивных (+Э). Перед изменением знака стимула, испытуемому предъявлялись нейтральные кадры с изображением зеленого фона. Каждый эксперимент продолжался не менее 20 и не более 25 минут. Во время просмотра стимулов непрерывно регистрировалась ЭЭГ испытуемого, а также после каждого стимула записывалась его речь. Обработка результатов эксперимента выполнялась в 2 этапа.

На первом этапе созданы фрагменты записей биомедицинских сигналов, свободные от шумов (для речевых сигналов) и артефактов (для ЭЭГ-сигналов). В результате восприятия стимулов одного знака (-Э или +Э) получены последовательности фрагментов ЭЭГ, характеристики которых содержат информацию об изменении эмоциональных реакций испытуемого. На втором этапе обработки результатов экспериментов выполняется выявление и количественная оценка этих скрытых характеристик, путем расчета спектров мощности сигналов (ЭЭГ или РС), а также реконструкция по ним аттракторов (рисунок 3, а). Для характеристики аттракторов использованы оценки плотности траекторий аттрактора вблизи его центра ρj (1) и количество пустых ячеек в сетке, покрывающей проекцию аттрактора k0. Размеры сетки фиксированы: 196 ячеек, шаг - 50 отсчетов. Наблюдение за изменением признаков ρj и k0 показали, что в большинстве экспериментов существует их взаимосвязь со знаком эмоциональной реакции. Выявлено уменьшение k0 при восприятии испытуемым позитивных эмоций и увеличение k0 при негативных эмоциях (рисунок 5).

Рисунок 5. Изменение количества пустых ячеек в сетке, покрывающей проекцию аттрактора (k0) при демонстрации стимулов разного знака

Мультимодальная база эмоций и общедоступная база примеров эмоциональных реакций. Результаты проведенных экспериментов положены в основу мультимодальной базы эмоций, содержащей примеры сигналов с ярко и слабо выраженным эмоциональным окрасом. На первом этапе в базе размещены речевые образцы и связанные с ними ЭЭГ-паттерны [13, с. 83]. Модель «сущность-связь» расширенной базы эмоций (рисунок 6) дополнена описаниями стимулов и новых каналов.

Рисунок 6. ER-модель расширенной базы примеров эмоциональных реакций

Примеры эмоциональных реакций, помещаемые в базу, не маркируются названиями эмоций («гнев», «страх», «радость» и т.д.). Классификационными признаками являются знак эмоции (положительная, отрицательная или нейтральное состояние) и её уровень (сильная, слабая). Ведутся работы по определению направления развития эмоции (рост, затухание). В состав мультимодальной базы эмоций включены:

- 266 паттернов контрольной фразы длительностью 2-6 с., произнесенной различными дикторами не актерами в ответ на предъявление видео стимула;

- 2660 гласных фонем длительностью 0,025-0,25 с., сегментированных из контрольных фраз;

- 240 очищенных от артефактов паттернов ЭЭГ длительностью по 12 с.

С 2016 года идет работа по наполнению общедоступной базы примеров эмоциональных реакций [18]. База разработана на языке PHP с СУБД MySQL, для удаленного доступа к этому ресурсу создан сайт (http://emotions.tstu.tver.ru) с использованием cms joomla. В настоящее время в открытом доступе размещены серии экспериментов:

I. Записи образцов речи на русском языке в формате .wav (17 испытуемых). Число паттернов для одного испытуемого – до 10 примеров. В качестве эмоциогенных стимулов использованы специально подготовленные видеоролики со звуком, вызывающие положительные, отрицательные и нейтральные эмоциональные реакции.

II. Записи образцов речи (в формате .wav) и сделанных параллельно записей ЭЭГ-сигналов (в формате .txt) для 9 испытуемых. Для отдельных испытуемых выполнено несколько сеансов записей. В качестве эмоциогенных стимулов также использованы видеоролики со звуком. Параллельная регистрация речевых сигналов и ЭЭГ позволила объективно зафиксировать изменения реакции испытуемого при восприятии стимулов разной модальности.

Заключение. Программный комплекс позволяет проводить эксперименты с регистрацией и систематизацией данных по условиям каждого эксперимента и его результатам. Создание и периодическая актуализация содержания базы паттернов ситуационных откликов делает доступным для всех заинтересованных пользователей полную информацию по каждому эксперименту, включая записи речевых и физических сигналов, а также данные о методике экспериментов и протоколов наблюдений.

References
1. Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W.F., Weiss B. A Database of German Emotional Speech // Proceedings of 9th European Conference on Speech Communication and Technology (Interspeech). – ISCA. Lisbon, Portugal, 2005. – P. 1517-1520.
2. Engberg I.S., Hansen A.V. Documentation of the Danish Emotional Speech Database (DES). Aalborg University. – Denmark, 1996.
3. Haq S., Jackson P.J.B., Edge J.D. Audio-Visual Feature Selection and Reduction for Emotion Classification // International Conference on Auditory-Visual Speech Processing (AVSP). – ISCA. Australia, 2008. – P. 185-190.
4. Ellbogen T., Steffen A., Schiel F. The BITS Speech Synthesis Corpus for German // Proc. of the IV International Conference on Language Resources and Evaluation. – ISCA. Lisbon, Portugal, 2004. – P. 2091-2094.
5. Shaefer A., Nils F., Sanchez X., Philippot P. Assessing the effectiveness of a large database of emotion-eliciting films: A new tool for emotion researches // Cognition and Emotion. – 2010. Vol. 24. – No. 7. – P.1153-1172.
6. RAVDESS Speech/Song Database, https://smartlaboratory.org/ravdess/.
7. Soleymani M., Lichtenauer J., Pun T., Pantic M. A multimodal database for affect recognition and implicit tagging // IEEE Transactions on Affective Computing. – 2012. – Vol. 3. – No. 1. – P. 42-55.
8. Ringeval F., Sonderegger A., Sauer J., Lalanne D. Introducing the RECOLA Multimodal Corpus of Remote Collaborative and Affective Interactions // Proceedings of 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.-IEEE. Shanghai, 2013. – P. 1-8.
9. Wang Y., Guan L. Recognizing human emotional state from audiovisual signals // IEEE Transactions on Multimedia. – 2008. – Vol.
10. – No. 5. – P. 936–946. 10. Koelstra S., Muehl C., Soleymani M., Lee J.-S., Yazdani A., Ebrahimi T., Pun T., Nijholt A., Patras I. DEAP: A Database for Emotion Analysis using Physiological Signals // IEEE Transaction on Affective Computing. – 2013. – Vol. 3. – No. 1. – P. 18-31.
11. Liu Y., Sourina O., Nguyen M.K. Real-Time EEG-based Human Emotion Recognition and Visualization // Proc. 2010 Int. Conf. on Cyberworlds. – IEEE Computer Society. Singapore, 2010. – P. 262-269.
12. Sidorov K.V. Biotekhnicheskaya sistema monitoringa emotsii cheloveka po rechevym signalam i elektroentsefalogrammam: diss. … kand. tekh. nauk. – Tver', 2015. – 182 s.
13. Filatova N.N., Sidorov K.V. Komp'yuternye modeli emotsii: postroenie i metody issledovaniya: monografiya. – Tver': RITs TvGTU, 2017. – 200 s.
14. Mekler A.A. Programmnyi kompleks dlya analiza elektroentsefalogramm metodami teorii dinamicheskogo khaosa: dis. …kand. tekhn. nauk: 05.13.18. – SPb, IMCh RAN, 2006. – 168 s.
15. Perervenko Yu.S. Issledovanie invariantov nelineinoi dinamiki rechi i printsipy postroeniya sistemy audioanaliza psikhofiziologicheskogo sostoyaniya: dis. …kand. tekhn. nauk: 03.11.17. – Taganrog, TTI YuFU, 2009. – 171 s.
16. Filatova N.N., Sidorov K.V., Terekhin S.A. Programmnyi kompleks dlya interpretatsii neverbal'noi informatsii putem analiza obraztsov rechi ili elektroentsefalogrammy // Programmnye produkty i sistemy. – 2015. – № 3 (111). – S. 24–29.
17. Shemaev P.D., Filatova N.N. Issledovanie vliyaniya shuma v golosovom signale na raspoznavanie kharakteristik znaka emotsii // Sbornik trudov konf. «BIOMEDSISTEMY-2015». – Ryazan', 2015. – S. 90–93.
18. Arkhiv primerov emotsional'nykh reaktsii, http://emotions.tstu.tver.ru.