Library
|
Your profile |
Philology: scientific researches
Reference:
Skvortsova E.B., Bochkarev A.I., Pepelyaeva M.A.
Statistical Analysis of English Apology Speech Formulas Using the SVM-Classifier
// Philology: scientific researches.
2018. № 4.
P. 302-307.
DOI: 10.7256/2454-0749.2018.4.26268 URL: https://en.nbpublish.com/library_read_article.php?id=26268
Statistical Analysis of English Apology Speech Formulas Using the SVM-Classifier
DOI: 10.7256/2454-0749.2018.4.26268Received: 12-05-2018Published: 02-01-2019Abstract: The aim of the research is the development of a relevant and accurate instrument to analyse statistical characteristics of speech acts of different kinds. The object of the research is English apology speech formulas. The subject of the research is the statistical characteristics of the aforesaid formulas. The authors have analyzed English apology speech formulas and formalized an apology cluster, as a result, they have discovered the basic formulas apologies can be built on. In this article the authors are focusing on the development of accurate instruments that is so needed in modern linguistic studies. In the course of their research the authors have used both linguistic and mathematical methods. To recognize apologies, the authors apply a classifier that is based on reference vectors. The novelty of the research is caused by the fact that valid instruments to define particular speech acts in texts have not been yet created. As a result, the authors achieve 94% of the accuracy of their classification which is a good indicator. The results received can be used for statistical analysis of other speech formulas besides apologies. In the future the authors suggest to extend groups of respondents in order to increase accuracy of classification. Keywords: corpus linguistics, mathematical linguistics, speech acts, apology speech formulas, Python, Scikit-learn, support vector machine, formalization, attribute vector, binary classificationВведение Отсутствие точного инструментария и единой теоретической базы характеризуют современное состояние лингвистики [5]. Разработка релевантного и точного инструментария для анализа статистических характеристик различных классов речевых актов является основной целью проводимого нами исследования. В нашей работе применяются как математические, так и лингвистические методы. Ранее нами были проанализированы речевые формулы извинения в английском языке [3],[4],[7],[8] и проведена формализация кластера оправданий [2]. Мы получили 11 основных формул, в соответствии с которыми могут строиться оправдания. Первостепенную роль в процессе формализации кластеров различных речевых актов играет инструментарий, который с адекватной точностью позволил бы выделять тексты, содержащие определенные речевые акты, среди множества текстов. Среди нескольких возможных вариантов (Naive Bayes, SVM – Support Vector Machines, нейронные сети) нами был выбран классификатор на основе опорных векторов, подробное описание которого можно найти в [1]. Использование метода опорных векторов SVM может быть отнесено к одному из наиболее распространенных и эффективных способов решения задач распознавания образов [6],[9],[10]. Для программной реализации инструментария был использован язык программирования Python 2.7 и библиотека методов машинного обучения Scikit-learn, предоставляющая готовую реализацию метода опорных векторов. В данной работе мы применяем четырехшаговый алгоритм статистического анализа речевых формул оправдания, а именно: Шаг 1. Формирование вектора признаков для классификатора Шаг 2. Классификация исследуемой выборки Шаг 3. Классификация текстов корпуса Шаг 4. Верификация выборки. Далее мы подробно разберем каждый из шагов. Шаг 1. Формирование вектора признаков для классификатора Любая задача классификации предполагает формирование вектора признаков для классификатора. Для того чтобы сформировать данный вектор, мы использовали полученные формулы: · APOLOGIZING + [but] + I (we/my_noun) + STATIVE VERB + NEGATION + ACTION; · APOLOGIZING + [but] + I (we/my_noun) + STATIVE VERB + [OBJECT/FACT/STATE]; · APOLOGIZING + [but] + I (we/my_noun) + STATIVE VERB + ACTION; · APOLOGIZING + [but] + I (we/my_noun) + STATIVE VERB + NEGATION + [OBJECT/FACT/STATE]; · APOLOGIZING + [but] + I (we/my_noun) + DYNAMIC VERB + NEGATION + [OBJECT/FACT/STATE]; · APOLOGIZING + [but] + I (we/my_noun) + DYNAMIC VERB + [OBJECT/FACT/STATE]; · APOLOGIZING + [but] + FORMAL SUBJECT + STATIVE VERB + [OBJECT/FACT/STATE]; · APOLOGIZING + [but] + FORMAL SUBJECT + DYNAMIC VERB; · APOLOGIZING + [but] + you/your_noun + DYNAMIC VERB; · APOLOGIZING + [but] + NOUN + STATIVE VERB + [OBJECT/FACT/STATE]; · APOLOGIZING + [but] + NOUN + … + NOUN. Наиболее очевидное решение в данной ситуации – использовать в качестве признаков все уникальные компоненты выведенных формул. Однако такой подход не позволяет учитывать порядок слов в текстах, являющийся существенным при рассмотрении оправданий. Вследствие этого в вектор признаков были включены также биграммы компонентов формул (например, but+ I(we/my_noun) или NEGATION + STATIVE VERB). Итоговый вектор признаков состоит из 38 элементов, включающих одиночные компоненты и биграммы. Набор биграмм формировался с учетом того, что некоторые компоненты формул (but, OBJECT/FACT/STATE) не являются обязательными, и, как следствие, включает в себя не только биграммы APOLOGIZING + but и but + I(we/my_noun), но и биграмму APOLOGIZING + I (we/my_noun) (аналогично для компонентов FORMAL SUBJECT, you/your_noun и NOUN). Шаг 2. Классификация исследуемой выборки Исследуемая текстовая выборка состояла из 250 текстов, причем 150 текстов содержали в себе оправдания, 50 текстов содержали объяснения, несколько схожие с оправданиями по структуре, и оставшиеся 50 текстов не содержали извинений и их сателлитов (далее “прочие тексты”). Примеры текстов из выборки приведены в таблице 1.
Данная выборка была разделена на две части: обучающую и тестовую. Обучающая выборка включала в себя 200 текстов, из которых 120 относились к оправданиям, 40 относились к объяснениям и 40 – к прочим текстам. Тестовая выборка состояла из 50 текстовых фрагментов (30 оправданий, 10 объяснений, 10 прочих текстов). SVM-классификатор, как правило, используется для задач бинарной классификации (когда имеется всего два класса), однако может быть адаптирован также и для задач мультиклассификации (когда количество классов больше двух). Поскольку на этапе формализации было выделено 11 основных формул оправданий, то потенциально мы имеем 12 классов текстов (11 классов различных оправданий и 1 класс “не-оправданий”). Однако небольшой объем исследуемой выборки пока не позволяет свести задачу классификации к многоклассовой – для некоторых классов число примеров в обучающей выборке будет слишком малым (3-5 штук), что негативно отразится на точности классификации. В связи с этим, было решено рассматривать данную задачу как задачу бинарной классификации, выделяя общий класс, включающий в себя все оправдания, и класс не-оправданий. Для оценки эффективности работы SVM использовались доли ошибок первого и второго рода. Ошибка первого рода, или “ложный пропуск”, возникает, когда классификатор распознает оправдание, как не-оправдание. Ошибка второго рода, или “ложное обнаружение”, возникает, когда классификатор относит не-оправдание к оправданию. Результаты, полученные в ходе исследований, представлены в таблице 2 (данные получены на тестовой выборке после обучения классификатора).
Таким образом, точность классификации на тестовой выборке составила 94%. В 6% случаев классификатор отнес оправдания к “не-оправданиям” (ошибка первого рода), однако, обратной ситуации, когда “не-оправдания” были отнесены к оправданиям (ошибка второго рода), не возникало. Шаг 3. Классификация текстов корпуса Для дальнейших исследований нами была сформирована выборка, состоящая из 12 000 текстов языкового корпуса. Она включала в себя по 2 000 текстовых фрагментов, содержащих в себе слова sorry, forgive, excuse, apologize и pardon. Также для исследований были выбраны 2 000 текстовых фрагментов, содержащих в себе слово regret, которое не рассматривалось нами на этапе формализации. Предобработка всех текстов и сама классификация заняла 1.5 часа. Результаты классификации представлены в таблице 3.
На основании полученных данных можно сделать вывод, что более чем в половине случаев (57%), извинению сопутствует оправдание. Рассмотрим результаты классификации более подробно для каждого из слов.
Приведенные результаты показывают примерно одинаковую частоту употребления извинительных слов sorry, forgive, excuse, apologize иpardon при оправдании. Несколько чаще остальных употребляется слово sorry (в 22% случаев). Интересно также отметить, что тексты, содержащие в себе выражение сожаления (regret), чаще всего не содержат в себе оправдание. В следующей таблице для каждого слова представлены доли оправданий от общего количества текстов, содержащих это слово (2 000 текстов).
Таким образом, можно сделать вывод о том, что употребляя слова sorry, forgive, apologize, excuse и pardon, в большинстве случаев, адресант далее оправдывается (в 75.8%, 70.2%, 67.3%, 61.0% и 60.7% случаев соответственно). А если адресант выражает сожаление (regret), то оправдывается при этом он крайне редко (всего в 6.4% случаев). Шаг 4. Верификация выборки Из 12 000 текстов нами было отобрано случайным образом 100 примеров для дальнейшего эксперимента. В ходе проводимого эксперимента испытуемым было предложено классифицировать высказывания на оправдания и не-оправдания. В эксперименте приняло участие 100 преподавателей и/или носителей английского языка. В результате, из 100 текстов изначальной выборки 54 примера были отнесены большинством испытуемых к текстам, содержащим оправдания, и такие тексты составили 54% выборки. Классификатор показал, что оправдания содержатся в 57% текстов, следовательно, можно утверждать, что точность нашего инструментария превышает 90%. Заключение В ходе исследований нами был разработан инструментарий, позволяющий выделять тексты, содержащие оправдания, из общего множества текстов. Для решения задачи распознавания оправданий использовался классификатор на основе опорных векторов. Была достигнута точность классификации 94%, что является хорошим результатом. Также были проведены исследования на большом объеме текстов (12 000 текстовых фрагментов), которые показали, что более чем в половине случаев извинение сопровождается оправданием. Кроме того, в ходе эксперимента, представляющего собой опрос преподавателей и/или носителей языка, было установлено, что нижняя граница точности разработанного нами инструментария составляет 90%. На основании исследований, проведенных на большой выборке текстов, мы планируем расширять обучающую и тестовую выборки до 1000 текстовых фрагментов с целью увеличить точность классификации. References
1. Barsegyan A.A. Analiz dannykh i protsessov: ucheb. posobie. 3-e izd., pererab. i dop. / A.A. Barsegyan, S.I. Elizarov, M.S. Kupriyanov, M.D. Tess, I.I. Kholod. – SPB.: BKhV-Peterburg. 2009. 512 s.
2. Bochkarev A.I., Pepelyaeva M.A., Skvortsova E.B. Statisticheskie kharakteristiki rechevykh formul vezhlivykh opravdanii v angliiskom yazyke // Filologicheskie nauki. Voprosy teorii i praktiki. 2018. №2. Ch. 1. S. 53-58. 3. Bochkarev A.I., Skvortsova E.B. Kombinatornye kharakteristiki rechevogo akta izvineniya sorry // Filologicheskie nauki. Voprosy teorii i praktiki. 2015. № 6. Ch. 2. S. 48-52. 4. Bochkarev A.I., Skvortsova E.B. Kombinatorno-pragmaticheskie kharakteristiki periferiinykh rechevykh formul izvineniya v ikh vtorichnoi funktsii // Nauchnyi dialog. 2016. № 6 (54). S. 21-30. 5. Mel'chuk I.A., Zholkovskii A.K. Tolkovo-kombinatornyi slovar' sovremennogo russkogo yazyka. Opyty semantiko-sintaksicheskogo opisaniya russkoi leksiki. Vena: Wiener Slawistischer Almanach. 1984. 992 s. 6. O.S. Seredin. Metody i algoritmy bespriznakovogo raspoznavaniya obrazov // Diss. k.f.-m.n. Tul'skii gosudarstvennyi universitet. 2001. 7. Skvortsova E.B. Izvinenie kak pervichnaya funktsiya periferiinykh formul izvineniya apologise/ze, forgive me, pardon pri issledovanii ikh kombinatornykh kharakteristik // Filologicheskie nauki. Voprosy teorii i praktiki. 2016. № 9/2 (63). C. 154-158. 8. Skvortsova E.B. Kombinatornye kharakteristiki rechevoi formuly izvineniya Sorri/Sorry v russkom yazyke // Nauchnyi dialog. 2017. № 4. S. 70-80. 9. Vapnik V. N. An overview of statistical learning theory // IEEE Transactions on Neural Networks. 1999. 10 (5). R. 988-999. 10. Vapnik V. N. The Nature of Statistical Learning Theory. 2nd ed. New York. 1999. 299 p. |