Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Litera
Reference:

Quantitative Research of the Author English-Language Corpus by Raghu N. Mitra

Borunov Artem Borisovich

ORCID: 0000-0003-2507-7218

PhD in Philology

Associate Professor of the Department of Romano-Germanic Languages Moscow State University of Humanities and Economics

107150, Russia, g. Moscow, ul. Losinoostrovskaya, 49

borunov.artem@yandex.ru
Other publications by this author
 

 

DOI:

10.7256/2409-8698.2017.1.20090

Received:

14-08-2016


Published:

17-04-2017


Abstract: The subject of this research is the frequency of the lexical unit usage in the English-Language corpus of Raghu N. Mitra that was obtained through automated processing of the corpus with the program "WordSmith Tools". The object of the research is the English-language corpus of Raghu N. Mitra consisting of 414311 words. By the means of computer processing the author made a frequency list consisting of 50 units as well as compared the frequency of the semantic field usage of "Crime" according to the corpus of contemporary American English and author corpus of R. N. Mitra. The research methods used by the author included comparative, statistical and mathematical methods. The conversion of the text into the author corpus and its further processing were carried out using computer software. As a result of the study, the author English-language corpus was converted into the frequency list to compare this one with a frequency list of the corpus of contemporary American English and to carry out a critical analysis of the data. The novelty of this research is caused by the fact that the author attempts to conduct a quantitative analysis of the language corpus of American English of the early 21st century and comparative analysis of the results.


Keywords:

quantitative analysis, author corpus, Raghu N. Mitra, WordSmith Tools, English fiction prose, frequency, Corpus of Contemporary American English, frequency list, comparative analysis of corpuses, linguostatistics


Квантитативная лингвистика, развивавшаяся в Европе и США, переживает расцвет в наши дни в России. Сегодня отечественные лингвисты обратили внимание на методы и подходы этого раздела общей лингвистики, а, с учетом возросшей компьютеризации нашей жизни, удобством использования компьютерного программного обеспечения при проведении анализа корпуса, создании конкордансов и глоссариев, машинном анализе текста, появляется всё больше интересных исследований как в области филологии, отметим, например, исследование параметрических ядер германских языков Воевудской О. М. [4], исследование параметрического ядра русской лексики по данным МАС-2 Стародубцевой Ю. А. [7], так и техническими специалистами, вносящими вклад в автоматизацию процесса текстового анализа, например, разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев Кулешова С. В. [6].

Квантитативный анализ, иными словами количественное исследование языка статистическими методами, позволяет, при помощи компьютерного ПО, автоматизировано получить данные по интересующему исследователя запросу.

Для проведения анализа текста использовалась компьютерная программа «WordSmith Tools» [14]. Данная программа обладает большим функционалом для всестороннего исследования текста математическими методами. Учитывая задачи настоящего следования, мы воспользовались функцией общей статистики корпуса и функцией построения частотного списка.

Фактическим материалом исследования послужил созданный нами электронный авторский англоязычный корпус из 4 полных вариантов книг и двух отрывков из книг Рэгу Н. Митры на английском языке:

1) «Очень банальная страсть» “A Very Insipid Passion” [11];

2) «Грехопадение» “Impute Fall to Sin” [9];

3) «Дождь из теней» “A Rain Full of Ghosts” [10];

4) «Если бы не смерть» “If there wasn't death” [8],

а также 2 фрагмента других произведений писателя, представленных в свободном доступе в сети Интернет:

5) “As in the falling of an eyelid” [12];

6) “At The Davies” [13].

Материал исследования. Приведем исходные параметры анализируемого корпуса, используя ПО, которые занесены в таблицу 1. «Статистические данные обработки авторского корпуса». При обработке общего файла корпуса текстов Р. Н. Митры были выделены исходные данные взятых для анализа текстов, которые составляют – 414311 слов или токенов (столбец «tokens used for word list»), либо 2 273 083 знаков с пробелами (столбец «file size»). Подробнее процедура получения электронного авторского корпуса текста и исследование его начальных параметров описано в статье, откуда позаимствован фрагмент табл. 1 [1].

file size

tokens (running words) in text

tokens used for word list

sum of entries

types (distinct words)

type/token ratio (TTR)

STTR std.dev.

2273083

414823

414311

19405

4,68

55,80

Табл. 1. Статистические данные обработки авторского корпуса [1].

Опираясь на материал данного авторского корпуса из 414311 токенов, построим частотный список. Данный эксперимент был проведен нами с использованием программы «WordSmith Tools», функция автоматизированного построения частотного списка [14].

Эксперимент № 1: «Построение частотного списка лексических единиц исследуемого авторского корпуса программой «WordSmith Tools».

Цель эксперимента: построить частотный список и проанализировать его, затем отобрать 50 наиболее частотных единиц из авторского корпуса и провести сравнение с другими англоязычными корпусами.

Исходные данные: авторский корпус объемом 414311 токенов [1]. Исходные параметры авторского корпуса занесены в табл. 1.

Дата эксперимента: 22.02.2016.

Ход эксперимента: созданный электронный авторский корпус был загружен в программу для составления частотного словаря. Программа автоматически проанализировала корпус и составила список, ранжированный по частотности словоупотребления. Однако, несмотря на удобство и быстроту обработки информации данным ПО, отметим недостаток, а именно при автоматическом анализе корпуса отсутствует функция объединения различных словоформ в лексему, поэтому, например, слова «dog» и «dogs» считаются различными и частотность употребления подсчитывается для каждого слова, также как и в случае с грамматическими парадигмами времен. Кроме того, программа учитывает как токены служебные слова: артикли, союзы, предлоги. Мы не стали в ручную вносить коррективы в результаты обработки текста, так как не ставили задачи обработать частотность, например, исключительно номинативных единиц.

Результаты эксперимента: в составленном частотном словаре последним словом является “zoomed”, которое в ранжировке занимает место под номером 19404 с индексом частотности употребления 1. Первые места по частотности, как и ожидалось, занимают служебные слова: “the”, “I”, “a”, которые обладают частотностью употребления 19256, 11546, 11268 соответственно (см. Табл. 2). На данные слова приходится от 4,64 до 2,72 % текста.

N

Word

Freq.

%

Texts

%

1

THE

19256

4,64

1

100,00

2

I

11546

2,78

1

100,00

3

A

11268

2,72

1

100,00

……………..

19402

ZOMBIE

1

1

100,00

19403

ZONES

1

1

100,00

19404

ZOOMED

1

1

100,00

Табл. 2. Фрагмент таблицы-отчета частотного употребления ЛЕ.

Приведем список 50 слов с наибольшей частотностью употребления из исследуемого корпуса (Табл. 3): «Freq.» - «частотность употребления», «%» - «% в корпусе», «Texts» - в данном столбце указано, что при расчете брались данные одного корпуса. Данный список состоит из служебных слов: артиклей, предлогов, местоимений, вспомогательных и модальных глаголов, союзов, частиц, прошедшего времени глагола “said”, вводящего косвенную речь и слова “like”, которое может быть как глаголом, так и наречием. На данный список приходится 46,34% всего корпуса.

WordList 22 фев 2016

N

Word

Freq.

%

Texts

1

THE

19256

4,64

1

2

I

11546

2,78

1

3

A

11268

2,72

1

4

TO

10075

2,43

1

5

WAS

8671

2,09

1

6

AND

8630

2,08

1

7

OF

8490

2,05

1

8

HE

6906

1,66

1

9

IN

6645

1,60

1

10

IT

5587

1,35

1

11

YOU

5406

1,30

1

12

SHE

4961

1,20

1

13

THAT

4908

1,18

1

14

SAID

4812

1,16

1

15

NOT

4506

1,09

1

16

HIS

3655

0,88

1

17

HER

3648

0,88

1

18

HAD

3638

0,88

1

19

WITH

3486

0,84

1

20

IS

2944

0,71

1

21

HAVE

2905

0,70

1

22

ON

2850

0,69

1

23

FOR

2756

0,66

1

24

MY

2503

0,60

1

25

ME

2321

0,56

1

26

AT

2312

0,56

1

27

WHAT

2149

0,52

1

28

NO

2012

0,49

1

29

BE

1907

0,46

1

30

DID

1879

0,45

1

31

HALLEY

1830

0,44

1

32

AS

1782

0,43

1

33

HIM

1673

0,40

1

34

OUT

1666

0,40

1

35

WE

1640

0,40

1

36

SANDY

1603

0,39

1

37

WOULD

1571

0,38

1

38

ONE

1568

0,38

1

39

BUT

1529

0,37

1

40

UP

1506

0,36

1

41

ARE

1441

0,35

1

42

WERE

1348

0,32

1

43

THERE

1347

0,32

1

44

AN

1329

0,32

1

45

THIS

1328

0,32

1

46

FROM

1320

0,32

1

47

COULD

1319

0,32

1

48

SO

1303

0,31

1

49

ABOUT

1244

0,30

1

50

LIKE

1225

0,30

1

Табл. 3. Список 50 самых частотных токенов

Высокую частотность употребления таких единиц как “the”, “a”, “had”, “was”, “of”, “are”, “is”, “have” и ряда других можно объяснить грамматической системой английского языка, в котором присутствует категория определенности/неопределенности, передающаяся посредством артикля, аналитический способ образования грамматических времен при помощи вспомогательных глаголов, передача части грамматических отношений через предлоги. Сравним наши данные с данными Корпуса современного американского английского языка [5] (англ. Corpus of Contemporary American English), которые представлены в Табл. 4. (Корпус современного американского английского языка).

Rank

Word

Part of speech

Frequency

Dispersion

1

the

a

22038615

0.98

2

be

v

12545825

0.97

3

and

c

10741073

0.99

4

of

i

10343885

0.97

5

a

a

10144200

0.98

6

in

i

6996437

0.98

7

to

t

6332195

0.98

8

have

v

4303955

0.97

9

to

i

3856916

0.99

10

it

p

3872477

0.96

11

I

p

3978265

0.93

12

that

c

3430996

0.97

13

for

i

3281454

0.98

14

you

p

3081151

0.92

15

he

p

2909254

0.94

16

with

i

2683014

0.99

17

on

i

2485306

0.99

18

do

v

2573587

0.95

19

say

v

1915138

0.95

20

this

d

1885366

0.96

21

they

p

1865580

0.96

22

at

i

1767638

0.98

23

but

c

1776767

0.97

24

we

p

1820935

0.94

25

his

a

1801708

0.95

26

from

i

1635914

0.99

27

that

d

1712406

0.94

28

not

x

1638830

0.98

29

n't

x

1619007

0.97

30

by

i

1490548

0.96

31

she

p

1484869

0.91

32

or

c

1379320

0.97

33

as

c

1296879

0.98

34

what

d

1181023

0.94

35

go

v

1151045

0.93

36

their

a

1083029

0.97

37

can

v

1022775

0.98

38

who

p

1018283

0.97

39

get

v

992596

0.94

40

if

c

933542

0.97

41

would

v

925515

0.97

42

her

a

969591

0.91

43

all

d

892102

0.98

44

my

a

919821

0.93

45

make

v

857168

0.98

46

about

i

874406

0.96

47

know

v

892535

0.93

48

will

v

824568

0.97

49

as

i

829018

0.95

50

up

r

795534

0.95

Табл. 4. 50 самых частотных единиц по данным Корпуса современного американского английского языка [5].

Обратим внимание на то, что, как и в авторском корпусе Р. Н. Митры, так и в Корпусе современного американского английского языка среди 50 наиболее частотных единиц присутствуют артикли (в обоих корпусах артикль “the” во главе списка), предлоги, местоимения, вспомогательные и модальные глаголы.

Особенностью авторского корпуса Р. Н. Митры из 50 самых частотных единиц является:

а) присутствуют имена основных героев “Halley” (частотность 1830), “Sandy” (частотность 1603);

б) учитывая специфику повествования «основным героем является доктор Мартин <…>, повествование ведется от лица героя» [2, c. 17] местоимение первого лица I находится на втором месте в списке частотности (частотность 11546).

Как уже отмечалось в одной из публикаций, посвященных исследованию творчества Рэгу Н. Митры: «в рассматриваемых романах Р. Н. Митры герои работают в полиции, расследуя преступления, связанные с оборотом наркотических средств, соответственно, в их речи присутствуют обиходные слова из данной сферы, жаргонизмы, характерные для речи полицейских и преступников: fix («доза»), plant («сыщик», «внедренный агент»), stash («припрятанные наркотики»), to snort (нюхать «дурь»), pot («травка»), mole («внедренный агент»)» [3, c. 50]. Так как произведения Рэгу Н. Митры относятся к жанру детективный роман, рассмотрим, к примеру, частотность употребления слов семиотического поля «преступление» - «crime» в художественной прозе писателя и сравним с данными, полученными из Корпуса современного американского английского языка. Список слов семиотического поля «преступление» - «crime» получен методом автоматизированной частотной выборки из Корпуса современного американского английского языка [5] – см. Табл. 5. (Корпус современного американского английского языка).

FREQ

ALL

%

MI

1

SCENE

3529

50906

6.93

6.67

2

ORGANIZED

1590

21433

7.42

6.77

3

COMMITTED

1590

25097

6.34

6.54

4

VIOLENT

1510

20935

7.21

6.72

5

BILL

989

126264

0.78

3.52

6

CRIME

850

45581

1.86

4.77

7

RATE

834

68763

1.21

4.15

8

COMMIT

791

9366

8.45

6.95

9

RATES

631

50856

1.24

4.19

10

HATE

584

23723

2.46

5.17

11

VICTIMS

551

27894

1.98

4.86

12

DRUGS

545

43915

1.24

4.19

13

VIOLENCE

523

50517

1.04

3.92

14

PUNISHMENT

514

11369

4.52

6.05

15

CHARGED

494

24177

2.04

4.90

16

LAB

476

17851

2.67

5.29

17

SERIOUS

430

64761

0.66

3.28

18

MURDER

373

34361

1.09

3.99

19

DRUG

368

64674

0.57

3.06

20

SCENES

329

15930

2.07

4.92

21

COMMITTING

328

3639

9.01

7.05

22

CONVICTED

306

11804

2.59

5.25

23

VICTIM

306

20671

1.48

4.44

24

FIGHTING

306

37649

0.81

3.57

25

PREVENTION

304

17085

1.78

4.71

26

GUILTY

302

22995

1.31

4.27

27

JUVENILE

276

6069

4.55

6.06

28

STATISTICS

267

17261

1.55

4.50

29

REDUCE

258

37287

0.69

3.34

30

POVERTY

254

20475

1.24

4.18

31

WAVE

252

22344

1.13

4.05

32

ACCUSED

208

19346

1.08

3.98

33

SOLVE

201

15396

1.31

4.26

34

HEINOUS

184

881

20.89

8.26

35

FBI

171

21748

0.79

3.53

36

WELFARE

165

22526

0.73

3.42

37

RAPE

164

11384

1.44

4.40

38

CORRUPTION

161

10268

1.57

4.52

39

PHOTOS

154

21651

0.71

3.38

40

WHITE-COLLAR

148

1174

12.61

7.53

41

FICTION

140

15269

0.92

3.75

42

HUMANITY

136

10900

1.25

4.19

43

DELINQUENCY

135

1519

8.89

7.03

44

TERRORISM

132

16848

0.78

3.52

45

HORRIBLE

130

10528

1.23

4.18

46

REDUCING

121

14011

0.86

3.66

47

COMMITS

118

917

12.87

7.56

48

ALLEGED

115

11336

1.01

3.89

49

INVESTIGATORS

113

15445

0.73

3.42

50

SPREE

112

1473

7.60

6.80

Табл. 5. 50 единиц семантического корпуса «Crime» по данным Корпуса современного американского английского языка [5].

Возьмем за исходный материал данные семантического поля «Crime» (Табл. 5) и сравним их с данными из авторского корпуса Рэгу Н. Митры. Создадим таблицу (Табл. 6), в правой колонке помещен список по данным Корпуса современного американского английского языка взятый нами за «эталонный», а в левой колонке приведены значения частотности употребления данных ЛЕ по данным обработки авторского корпуса Р. Н. Митры программой «WordSmith Tools».

№ пп

По данным обработки авторского корпуса Р. Н. Митры программой «WordSmith Tools»

По данным Корпуса современного американского английского языка

Токен

Частотность

% в тексте

Токен

Частотность

% в тексте

1

SCENE

59

0,01

SCENE

50906

6.93

2

ORGANIZED

4

ORGANIZED

21433

7.42

3

COMMITTED

43

0,01

COMMITTED

25097

6.34

4

VIOLENT

15

VIOLENT

20935

7.21

5

BILL

35

BILL

126264

0.78

6

CRIME

124

0,03

CRIME

45581

1.86

7

RATE

5

RATE

68763

1.21

8

COMMIT

16

COMMIT

9366

8.45

9

RATES

1

RATES

50856

1.24

10

HATE

15

HATE

23723

2.46

11

VICTIMS

5

VICTIMS

27894

1.98

12

DRUGS

65

0,02

DRUGS

43915

1.24

13

VIOLENCE

16

VIOLENCE

50517

1.04

14

PUNISHMENT

9

PUNISHMENT

11369

4.52

15

CHARGED

20

CHARGED

24177

2.04

16

-

-

LAB

17851

2.67

17

SERIOUS

53

0,01

SERIOUS

64761

0.66

18

MURDER

211

0,05

MURDER

34361

1.09

19

DRUG

184

0,04

DRUG

64674

0.57

20

SCENES

5

SCENES

15930

2.07

21

COMMITTING

8

COMMITTING

3639

9.01

22

CONVICTED

3

CONVICTED

11804

2.59

23

VICTIM

17

VICTIM

20671

1.48

24

FIGHTING

11

FIGHTING

37649

0.81

25

-

-

PREVENTION

17085

1.78

26

GUILTY

28

GUILTY

22995

1.31

27

JUVENILE

3

JUVENILE

6069

4.55

28

STATISTICS

6

STATISTICS

17261

1.55

29

REDUCE

3

REDUCE

37287

0.69

30

POVERTY

2

POVERTY

20475

1.24

31

WAVE

10

WAVE

22344

1.13

32

ACCUSED

7

ACCUSED

19346

1.08

33

SOLVE

13

SOLVE

15396

1.31

34

HEINOUS

2

HEINOUS

881

20.89

35

FBI

7

FBI

21748

0.79

36

WELFARE

4

WELFARE

22526

0.73

37

RAPE

8

RAPE

11384

1.44

38

CORRUPTION

3

CORRUPTION

10268

1.57

39

PHOTOS

2

PHOTOS

21651

0.71

40

-

-

WHITE-COLLAR

1174

12.61

41

FICTION

14

FICTION

15269

0.92

42

HUMANITY

3

HUMANITY

10900

1.25

43

-

-

DELINQUENCY

1519

8.89

44

TERRORISM

6

TERRORISM

16848

0.78

45

HORRIBLE

9

HORRIBLE

10528

1.23

46

-

-

REDUCING

14011

0.86

47

COMMITS

1

COMMITS

917

12.87

48

ALLEGED

2

ALLEGED

11336

1.01

49

INVESTIGATORS

1

INVESTIGATORS

15445

0.73

50

-

-

SPREE

1473

7.60

Табл. 6. Сравнительная таблица с данными частотного употребления

Сравнив данные левой и правой колонок Табл. 6, отметим, что не смотря на то, что Р. Н. Митра пишет детективы, в которых, как на первый взгляд кажется, семантическое поле «Crime» должно быть доминирующим, мы наблюдаем довольно большое расхождение со списком, принятым нами за «эталонный», а в ряде случаев часть токенов из Корпуса современного американского английского языка отсутствуют в исследуемом авторском корпусе (6 позиций).

Квантитативные исследования авторского корпуса по разным параметрам представляются чрезвычайно важными в наши дни, так как дают возможность расширить и углубить данные в уже имеющихся работах, которые, как правило, рассматривают литературоведческую сторону исследования, изучая стиль, композицию и воздействие на читателя посредством интертекстуальных включений, маркированных единиц и графики. Квантитативный анализ корпуса позволяет математическими методами построить частотные глоссарии и авторские словари, выделить особенности авторского словоупотребления, проанализировать коллокации слов. Всё это, несомненно, вносит свой вклад в лингвистическое изучение как текста, так и индивидуального стиля автора.

References
1. Borunov, A. B. Issledovanie angloyazychnogo avtorskogo korpusa Regu N. Mitry: opyt obrabotki teksta komp'yuternoi programmoi “WordSmith Tools” / A. B. Borunov, V. T. Malygin // Mir lingvistiki i kommunikatsii: elektronnyi nauchnyi zhurnal. – № 1 (43), 2016. [Elektronnyi resurs] – Rezhim dostupa: URL: http://www.tverlingua.ru, svobodnyi. Data obrashcheniya: 10.08.2016.
2. Borunov, A. B. Kompozitsiya kak avtorskii priem organizatsii povestvovaniya (na materiale angloyazychnykh tekstov R.N. Mitry) / A. B. Borunov // Filologiya: nauchnye issledovaniya, № 1 (21), 2016. – S. 11-20. DOI: 10.7256/2305-6177.2016.1.18011
3. Borunov, A. B. Nenormirovannye leksicheskie i foneticheskie edinitsy v khudozhestvennom tekste (na materiale prozy R. N. Mitry) / A. B. Borunov // Filologicheskie nauki. Voprosy teorii i praktiki. – 2013. № 12-1 (30). – S. 49-52.
4. Voevudskaya, O. M. Kontseptsiya ideograficheskogo slovarya osnovnogo leksicheskogo fonda germanskikh yazykov [Tekst]: diss…. d. filol. n: 10.02.04. / Oksana Mikhailovna Voevudskaya. – Voronezh, 2015. – 450 s.
5. Korpus sovremennogo amerikanskogo angliiskogo yazyka [Elektronnyi resurs] – Rezhim dostupa: URL: http://www.corpus.byu.edu/, po parolyu. – Yaz. angl., data obrashcheniya: 10.08.2016.
6. Kuleshov, S. V. razrabotka avtomatizirovannoi sistemy semanticheskogo analiza i postroeniya vizual'nykh dinamicheskikh glossariev [Tekst]: diss….k. tekh. nauk: 05.13.18 / Sergei Viktorovich Kuleshov. – SPb., 2005. – 113 s.
7. Starodubtseva, Yu. A. Issledovanie parametricheskogo yadra russkoi leksiki po dannym MAS-2 / Yu. A. Starodubtseva // Vestnik VGU. Seriya Lingvistika i mezhkul'turnaya kommunikatsiya.-№ 4, 2015. – S. 82-91.
8. Mitra, R. N. If there wasn't death / R. N. Mitra. – Denver, Colorado: Outskirts Press Inc., 2007. – 230 p.
9. Mitra, R. N. Impute Fall to Sin / R. N. Mitra. – M.: Manager, 2005. – 336 r.
10. Mitra, R. N. A Rain Full of Ghosts / R. N. Mitra. – Baltimore: Publish America, 2004. – 366 p.
11. Mitra, R. N. A Very Insipid Passion / R. N. Mitra. – M.: Manager, 2002. – 336 s.
12. Mitra, R. N. As in the falling of an eyelid (otryvok chasti knigi). – [Elektronnyi resurs] / R. N. Mitra. – Rezhim dostupa: URL: http://www. members.tripod.com/~ShibaHill/eyelid.html, svobodnyi. – Yaz. angl., data obrashcheniya: 20. 02.2016.
13. Mitra, R. N. At The Davies: A Novel of Medical Life (otryvok chasti knigi). – [Elektronnyi resurs] / R. N. Mitra. – Rezhim dostupa: URL: http://www.members.tripod.com/~ShibaHill/atthedavies.html, svobodnyi. – Yaz. angl., data obrashcheniya: 20.02.2016.
14. WordSmith Tools [Elektronnyi resurs]. – Rezhim dostupa: http://www.lexically.net/wordsmith/index.html, svobodnyi. – Zagl. s ekrana. – Yaz. angl., data obrashcheniya: 20.02.2016.