Quantitative Research of the Author English-Language Corpus by Raghu N. Mitra

Борунов А.Б.

doi:10.7256/2409-8698.2017.1.20090

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

Back to contents

Litera

Reference:

Borunov A.B. Quantitative Research of the Author English-Language Corpus by Raghu N. Mitra // Litera. 2017. № 1. P. 76-87. DOI: 10.7256/2409-8698.2017.1.20090 URL: https://en.nbpublish.com/library_read_article.php?id=20090

Quantitative Research of the Author English-Language Corpus by Raghu N. Mitra

Borunov Artem Borisovich

ORCID: 0000-0003-2507-7218

PhD in Philology

Associate Professor of the Department of Romano-Germanic Languages Moscow State University of Humanities and Economics

107150, Russia, g. Moscow, ul. Losinoostrovskaya, 49

borunov.artem@yandex.ru

Other publications by this author

DOI:

10.7256/2409-8698.2017.1.20090

Received:

14-08-2016

Published:

17-04-2017

Abstract: The subject of this research is the frequency of the lexical unit usage in the English-Language corpus of Raghu N. Mitra that was obtained through automated processing of the corpus with the program "WordSmith Tools". The object of the research is the English-language corpus of Raghu N. Mitra consisting of 414311 words. By the means of computer processing the author made a frequency list consisting of 50 units as well as compared the frequency of the semantic field usage of "Crime" according to the corpus of contemporary American English and author corpus of R. N. Mitra. The research methods used by the author included comparative, statistical and mathematical methods. The conversion of the text into the author corpus and its further processing were carried out using computer software. As a result of the study, the author English-language corpus was converted into the frequency list to compare this one with a frequency list of the corpus of contemporary American English and to carry out a critical analysis of the data. The novelty of this research is caused by the fact that the author attempts to conduct a quantitative analysis of the language corpus of American English of the early 21st century and comparative analysis of the results.

Keywords:

quantitative analysis, author corpus, Raghu N. Mitra, WordSmith Tools, English fiction prose, frequency, Corpus of Contemporary American English, frequency list, comparative analysis of corpuses, linguostatistics

Квантитативная лингвистика, развивавшаяся в Европе и США, переживает расцвет в наши дни в России. Сегодня отечественные лингвисты обратили внимание на методы и подходы этого раздела общей лингвистики, а, с учетом возросшей компьютеризации нашей жизни, удобством использования компьютерного программного обеспечения при проведении анализа корпуса, создании конкордансов и глоссариев, машинном анализе текста, появляется всё больше интересных исследований как в области филологии, отметим, например, исследование параметрических ядер германских языков Воевудской О. М. ^[4], исследование параметрического ядра русской лексики по данным МАС-2 Стародубцевой Ю. А. ^[7], так и техническими специалистами, вносящими вклад в автоматизацию процесса текстового анализа, например, разработка автоматизированной системы семантического анализа и построения визуальных динамических глоссариев Кулешова С. В. ^[6].

Квантитативный анализ, иными словами количественное исследование языка статистическими методами, позволяет, при помощи компьютерного ПО, автоматизировано получить данные по интересующему исследователя запросу.

Для проведения анализа текста использовалась компьютерная программа «WordSmith Tools» ^[14]. Данная программа обладает большим функционалом для всестороннего исследования текста математическими методами. Учитывая задачи настоящего следования, мы воспользовались функцией общей статистики корпуса и функцией построения частотного списка.

Фактическим материалом исследования послужил созданный нами электронный авторский англоязычный корпус из 4 полных вариантов книг и двух отрывков из книг Рэгу Н. Митры на английском языке:

1) «Очень банальная страсть» “A Very Insipid Passion” ^[11];

2) «Грехопадение» “Impute Fall to Sin” ^[9];

3) «Дождь из теней» “A Rain Full of Ghosts” ^[10];

4) «Если бы не смерть» “If there wasn't death” ^[8],

а также 2 фрагмента других произведений писателя, представленных в свободном доступе в сети Интернет:

5) “As in the falling of an eyelid” ^[12];

6) “At The Davies” ^[13].

Материал исследования. Приведем исходные параметры анализируемого корпуса, используя ПО, которые занесены в таблицу 1. «Статистические данные обработки авторского корпуса». При обработке общего файла корпуса текстов Р. Н. Митры были выделены исходные данные взятых для анализа текстов, которые составляют – 414311 слов или токенов (столбец «tokens used for word list»), либо 2 273 083 знаков с пробелами (столбец «file size»). Подробнее процедура получения электронного авторского корпуса текста и исследование его начальных параметров описано в статье, откуда позаимствован фрагмент табл. 1 ^[1].

file size	tokens (running words) in text	tokens used for word list	sum of entries	types (distinct words)	type/token ratio (TTR)	STTR std.dev.
2273083	414823	414311		19405	4,68	55,80

Табл. 1. Статистические данные обработки авторского корпуса ^[1].

Опираясь на материал данного авторского корпуса из 414311 токенов, построим частотный список. Данный эксперимент был проведен нами с использованием программы «WordSmith Tools», функция автоматизированного построения частотного списка ^[14].

Эксперимент № 1: «Построение частотного списка лексических единиц исследуемого авторского корпуса программой «WordSmith Tools».

Цель эксперимента: построить частотный список и проанализировать его, затем отобрать 50 наиболее частотных единиц из авторского корпуса и провести сравнение с другими англоязычными корпусами.

Исходные данные: авторский корпус объемом 414311 токенов ^[1]. Исходные параметры авторского корпуса занесены в табл. 1.

Дата эксперимента: 22.02.2016.

Ход эксперимента: созданный электронный авторский корпус был загружен в программу для составления частотного словаря. Программа автоматически проанализировала корпус и составила список, ранжированный по частотности словоупотребления. Однако, несмотря на удобство и быстроту обработки информации данным ПО, отметим недостаток, а именно при автоматическом анализе корпуса отсутствует функция объединения различных словоформ в лексему, поэтому, например, слова «dog» и «dogs» считаются различными и частотность употребления подсчитывается для каждого слова, также как и в случае с грамматическими парадигмами времен. Кроме того, программа учитывает как токены служебные слова: артикли, союзы, предлоги. Мы не стали в ручную вносить коррективы в результаты обработки текста, так как не ставили задачи обработать частотность, например, исключительно номинативных единиц.

Результаты эксперимента: в составленном частотном словаре последним словом является “zoomed”, которое в ранжировке занимает место под номером 19404 с индексом частотности употребления 1. Первые места по частотности, как и ожидалось, занимают служебные слова: “the”, “I”, “a”, которые обладают частотностью употребления 19256, 11546, 11268 соответственно (см. Табл. 2). На данные слова приходится от 4,64 до 2,72 % текста.

N	Word	Freq.	%	Texts	%
1	THE	19256	4,64	1	100,00
2	I	11546	2,78	1	100,00
3	A	11268	2,72	1	100,00

……………..

19402	ZOMBIE	1	1	100,00
19403	ZONES	1	1	100,00
19404	ZOOMED	1	1	100,00

Табл. 2. Фрагмент таблицы-отчета частотного употребления ЛЕ.

Приведем список 50 слов с наибольшей частотностью употребления из исследуемого корпуса (Табл. 3): «Freq.» - «частотность употребления», «%» - «% в корпусе», «Texts» - в данном столбце указано, что при расчете брались данные одного корпуса. Данный список состоит из служебных слов: артиклей, предлогов, местоимений, вспомогательных и модальных глаголов, союзов, частиц, прошедшего времени глагола “said”, вводящего косвенную речь и слова “like”, которое может быть как глаголом, так и наречием. На данный список приходится 46,34% всего корпуса.

WordList 22 фев 2016

N	Word	Freq.	%	Texts
1	THE	19256	4,64	1
2	I	11546	2,78	1
3	A	11268	2,72	1
4	TO	10075	2,43	1
5	WAS	8671	2,09	1
6	AND	8630	2,08	1
7	OF	8490	2,05	1
8	HE	6906	1,66	1
9	IN	6645	1,60	1
10	IT	5587	1,35	1
11	YOU	5406	1,30	1
12	SHE	4961	1,20	1
13	THAT	4908	1,18	1
14	SAID	4812	1,16	1
15	NOT	4506	1,09	1
16	HIS	3655	0,88	1
17	HER	3648	0,88	1
18	HAD	3638	0,88	1
19	WITH	3486	0,84	1
20	IS	2944	0,71	1
21	HAVE	2905	0,70	1
22	ON	2850	0,69	1
23	FOR	2756	0,66	1
24	MY	2503	0,60	1
25	ME	2321	0,56	1
26	AT	2312	0,56	1
27	WHAT	2149	0,52	1
28	NO	2012	0,49	1
29	BE	1907	0,46	1
30	DID	1879	0,45	1
31	HALLEY	1830	0,44	1
32	AS	1782	0,43	1
33	HIM	1673	0,40	1
34	OUT	1666	0,40	1
35	WE	1640	0,40	1
36	SANDY	1603	0,39	1
37	WOULD	1571	0,38	1
38	ONE	1568	0,38	1
39	BUT	1529	0,37	1
40	UP	1506	0,36	1
41	ARE	1441	0,35	1
42	WERE	1348	0,32	1
43	THERE	1347	0,32	1
44	AN	1329	0,32	1
45	THIS	1328	0,32	1
46	FROM	1320	0,32	1
47	COULD	1319	0,32	1
48	SO	1303	0,31	1
49	ABOUT	1244	0,30	1
50	LIKE	1225	0,30	1

Табл. 3. Список 50 самых частотных токенов

Высокую частотность употребления таких единиц как “the”, “a”, “had”, “was”, “of”, “are”, “is”, “have” и ряда других можно объяснить грамматической системой английского языка, в котором присутствует категория определенности/неопределенности, передающаяся посредством артикля, аналитический способ образования грамматических времен при помощи вспомогательных глаголов, передача части грамматических отношений через предлоги. Сравним наши данные с данными Корпуса современного американского английского языка ^[5] (англ. Corpus of Contemporary American English), которые представлены в Табл. 4. (Корпус современного американского английского языка).

Rank	Word	Part of speech	Frequency	Dispersion

1	the	a	22038615	0.98
2	be	v	12545825	0.97
3	and	c	10741073	0.99
4	of	i	10343885	0.97
5	a	a	10144200	0.98
6	in	i	6996437	0.98
7	to	t	6332195	0.98
8	have	v	4303955	0.97
9	to	i	3856916	0.99
10	it	p	3872477	0.96
11	I	p	3978265	0.93
12	that	c	3430996	0.97
13	for	i	3281454	0.98
14	you	p	3081151	0.92
15	he	p	2909254	0.94
16	with	i	2683014	0.99
17	on	i	2485306	0.99
18	do	v	2573587	0.95
19	say	v	1915138	0.95
20	this	d	1885366	0.96
21	they	p	1865580	0.96
22	at	i	1767638	0.98
23	but	c	1776767	0.97
24	we	p	1820935	0.94
25	his	a	1801708	0.95
26	from	i	1635914	0.99
27	that	d	1712406	0.94
28	not	x	1638830	0.98
29	n't	x	1619007	0.97
30	by	i	1490548	0.96
31	she	p	1484869	0.91
32	or	c	1379320	0.97
33	as	c	1296879	0.98
34	what	d	1181023	0.94
35	go	v	1151045	0.93
36	their	a	1083029	0.97
37	can	v	1022775	0.98
38	who	p	1018283	0.97
39	get	v	992596	0.94
40	if	c	933542	0.97
41	would	v	925515	0.97
42	her	a	969591	0.91
43	all	d	892102	0.98
44	my	a	919821	0.93
45	make	v	857168	0.98
46	about	i	874406	0.96
47	know	v	892535	0.93
48	will	v	824568	0.97
49	as	i	829018	0.95
50	up	r	795534	0.95

Табл. 4. 50 самых частотных единиц по данным Корпуса современного американского английского языка ^[5].

Обратим внимание на то, что, как и в авторском корпусе Р. Н. Митры, так и в Корпусе современного американского английского языка среди 50 наиболее частотных единиц присутствуют артикли (в обоих корпусах артикль “the” во главе списка), предлоги, местоимения, вспомогательные и модальные глаголы.

Особенностью авторского корпуса Р. Н. Митры из 50 самых частотных единиц является:

а) присутствуют имена основных героев “Halley” (частотность 1830), “Sandy” (частотность 1603);

б) учитывая специфику повествования «основным героем является доктор Мартин <…>, повествование ведется от лица героя» ^{[2, c. 17]} местоимение первого лица I находится на втором месте в списке частотности (частотность 11546).

Как уже отмечалось в одной из публикаций, посвященных исследованию творчества Рэгу Н. Митры: «в рассматриваемых романах Р. Н. Митры герои работают в полиции, расследуя преступления, связанные с оборотом наркотических средств, соответственно, в их речи присутствуют обиходные слова из данной сферы, жаргонизмы, характерные для речи полицейских и преступников: fix («доза»), plant («сыщик», «внедренный агент»), stash («припрятанные наркотики»), to snort (нюхать «дурь»), pot («травка»), mole («внедренный агент»)» ^{[3, c. 50]}. Так как произведения Рэгу Н. Митры относятся к жанру детективный роман, рассмотрим, к примеру, частотность употребления слов семиотического поля «преступление» - «crime» в художественной прозе писателя и сравним с данными, полученными из Корпуса современного американского английского языка. Список слов семиотического поля «преступление» - «crime» получен методом автоматизированной частотной выборки из Корпуса современного американского английского языка ^[5] – см. Табл. 5. (Корпус современного американского английского языка).

		FREQ	ALL	%	MI
1	SCENE	3529	50906	6.93	6.67
2	ORGANIZED	1590	21433	7.42	6.77
3	COMMITTED	1590	25097	6.34	6.54
4	VIOLENT	1510	20935	7.21	6.72
5	BILL	989	126264	0.78	3.52
6	CRIME	850	45581	1.86	4.77
7	RATE	834	68763	1.21	4.15
8	COMMIT	791	9366	8.45	6.95
9	RATES	631	50856	1.24	4.19
10	HATE	584	23723	2.46	5.17
11	VICTIMS	551	27894	1.98	4.86
12	DRUGS	545	43915	1.24	4.19
13	VIOLENCE	523	50517	1.04	3.92
14	PUNISHMENT	514	11369	4.52	6.05
15	CHARGED	494	24177	2.04	4.90
16	LAB	476	17851	2.67	5.29
17	SERIOUS	430	64761	0.66	3.28
18	MURDER	373	34361	1.09	3.99
19	DRUG	368	64674	0.57	3.06
20	SCENES	329	15930	2.07	4.92
21	COMMITTING	328	3639	9.01	7.05
22	CONVICTED	306	11804	2.59	5.25
23	VICTIM	306	20671	1.48	4.44
24	FIGHTING	306	37649	0.81	3.57
25	PREVENTION	304	17085	1.78	4.71
26	GUILTY	302	22995	1.31	4.27
27	JUVENILE	276	6069	4.55	6.06
28	STATISTICS	267	17261	1.55	4.50
29	REDUCE	258	37287	0.69	3.34
30	POVERTY	254	20475	1.24	4.18
31	WAVE	252	22344	1.13	4.05
32	ACCUSED	208	19346	1.08	3.98
33	SOLVE	201	15396	1.31	4.26
34	HEINOUS	184	881	20.89	8.26
35	FBI	171	21748	0.79	3.53
36	WELFARE	165	22526	0.73	3.42
37	RAPE	164	11384	1.44	4.40
38	CORRUPTION	161	10268	1.57	4.52
39	PHOTOS	154	21651	0.71	3.38
40	WHITE-COLLAR	148	1174	12.61	7.53
41	FICTION	140	15269	0.92	3.75
42	HUMANITY	136	10900	1.25	4.19
43	DELINQUENCY	135	1519	8.89	7.03
44	TERRORISM	132	16848	0.78	3.52
45	HORRIBLE	130	10528	1.23	4.18
46	REDUCING	121	14011	0.86	3.66
47	COMMITS	118	917	12.87	7.56
48	ALLEGED	115	11336	1.01	3.89
49	INVESTIGATORS	113	15445	0.73	3.42
50	SPREE	112	1473	7.60	6.80

Табл. 5. 50 единиц семантического корпуса «Crime» по данным Корпуса современного американского английского языка ^[5].

Возьмем за исходный материал данные семантического поля «Crime» (Табл. 5) и сравним их с данными из авторского корпуса Рэгу Н. Митры. Создадим таблицу (Табл. 6), в правой колонке помещен список по данным Корпуса современного американского английского языка взятый нами за «эталонный», а в левой колонке приведены значения частотности употребления данных ЛЕ по данным обработки авторского корпуса Р. Н. Митры программой «WordSmith Tools».

№ пп	По данным обработки авторского корпуса Р. Н. Митры программой «WordSmith Tools»			По данным Корпуса современного американского английского языка
№ пп	Токен	Частотность	% в тексте	Токен	Частотность	% в тексте
1	SCENE	59	0,01	SCENE	50906	6.93
2	ORGANIZED	4		ORGANIZED	21433	7.42
3	COMMITTED	43	0,01	COMMITTED	25097	6.34
4	VIOLENT	15		VIOLENT	20935	7.21
5	BILL	35		BILL	126264	0.78
6	CRIME	124	0,03	CRIME	45581	1.86
7	RATE	5		RATE	68763	1.21
8	COMMIT	16		COMMIT	9366	8.45
9	RATES	1		RATES	50856	1.24
10	HATE	15		HATE	23723	2.46
11	VICTIMS	5		VICTIMS	27894	1.98
12	DRUGS	65	0,02	DRUGS	43915	1.24
13	VIOLENCE	16		VIOLENCE	50517	1.04
14	PUNISHMENT	9		PUNISHMENT	11369	4.52
15	CHARGED	20		CHARGED	24177	2.04
16	-	-		LAB	17851	2.67
17	SERIOUS	53	0,01	SERIOUS	64761	0.66
18	MURDER	211	0,05	MURDER	34361	1.09
19	DRUG	184	0,04	DRUG	64674	0.57
20	SCENES	5		SCENES	15930	2.07
21	COMMITTING	8		COMMITTING	3639	9.01
22	CONVICTED	3		CONVICTED	11804	2.59
23	VICTIM	17		VICTIM	20671	1.48
24	FIGHTING	11		FIGHTING	37649	0.81
25	-	-		PREVENTION	17085	1.78
26	GUILTY	28		GUILTY	22995	1.31
27	JUVENILE	3		JUVENILE	6069	4.55
28	STATISTICS	6		STATISTICS	17261	1.55
29	REDUCE	3		REDUCE	37287	0.69
30	POVERTY	2		POVERTY	20475	1.24
31	WAVE	10		WAVE	22344	1.13
32	ACCUSED	7		ACCUSED	19346	1.08
33	SOLVE	13		SOLVE	15396	1.31
34	HEINOUS	2		HEINOUS	881	20.89
35	FBI	7		FBI	21748	0.79
36	WELFARE	4		WELFARE	22526	0.73
37	RAPE	8		RAPE	11384	1.44
38	CORRUPTION	3		CORRUPTION	10268	1.57
39	PHOTOS	2		PHOTOS	21651	0.71
40	-	-		WHITE-COLLAR	1174	12.61
41	FICTION	14		FICTION	15269	0.92
42	HUMANITY	3		HUMANITY	10900	1.25
43	-	-		DELINQUENCY	1519	8.89
44	TERRORISM	6		TERRORISM	16848	0.78
45	HORRIBLE	9		HORRIBLE	10528	1.23
46	-	-		REDUCING	14011	0.86
47	COMMITS	1		COMMITS	917	12.87
48	ALLEGED	2		ALLEGED	11336	1.01
49	INVESTIGATORS	1		INVESTIGATORS	15445	0.73
50	-	-		SPREE	1473	7.60

Табл. 6. Сравнительная таблица с данными частотного употребления

Сравнив данные левой и правой колонок Табл. 6, отметим, что не смотря на то, что Р. Н. Митра пишет детективы, в которых, как на первый взгляд кажется, семантическое поле «Crime» должно быть доминирующим, мы наблюдаем довольно большое расхождение со списком, принятым нами за «эталонный», а в ряде случаев часть токенов из Корпуса современного американского английского языка отсутствуют в исследуемом авторском корпусе (6 позиций).

Квантитативные исследования авторского корпуса по разным параметрам представляются чрезвычайно важными в наши дни, так как дают возможность расширить и углубить данные в уже имеющихся работах, которые, как правило, рассматривают литературоведческую сторону исследования, изучая стиль, композицию и воздействие на читателя посредством интертекстуальных включений, маркированных единиц и графики. Квантитативный анализ корпуса позволяет математическими методами построить частотные глоссарии и авторские словари, выделить особенности авторского словоупотребления, проанализировать коллокации слов. Всё это, несомненно, вносит свой вклад в лингвистическое изучение как текста, так и индивидуального стиля автора.

References

1. Borunov, A. B. Issledovanie angloyazychnogo avtorskogo korpusa Regu N. Mitry: opyt obrabotki teksta komp'yuternoi programmoi “WordSmith Tools” / A. B. Borunov, V. T. Malygin // Mir lingvistiki i kommunikatsii: elektronnyi nauchnyi zhurnal. – № 1 (43), 2016. [Elektronnyi resurs] – Rezhim dostupa: URL: http://www.tverlingua.ru, svobodnyi. Data obrashcheniya: 10.08.2016.
2. Borunov, A. B. Kompozitsiya kak avtorskii priem organizatsii povestvovaniya (na materiale angloyazychnykh tekstov R.N. Mitry) / A. B. Borunov // Filologiya: nauchnye issledovaniya, № 1 (21), 2016. – S. 11-20. DOI: 10.7256/2305-6177.2016.1.18011
3. Borunov, A. B. Nenormirovannye leksicheskie i foneticheskie edinitsy v khudozhestvennom tekste (na materiale prozy R. N. Mitry) / A. B. Borunov // Filologicheskie nauki. Voprosy teorii i praktiki. – 2013. № 12-1 (30). – S. 49-52.
4. Voevudskaya, O. M. Kontseptsiya ideograficheskogo slovarya osnovnogo leksicheskogo fonda germanskikh yazykov [Tekst]: diss…. d. filol. n: 10.02.04. / Oksana Mikhailovna Voevudskaya. – Voronezh, 2015. – 450 s.
5. Korpus sovremennogo amerikanskogo angliiskogo yazyka [Elektronnyi resurs] – Rezhim dostupa: URL: http://www.corpus.byu.edu/, po parolyu. – Yaz. angl., data obrashcheniya: 10.08.2016.
6. Kuleshov, S. V. razrabotka avtomatizirovannoi sistemy semanticheskogo analiza i postroeniya vizual'nykh dinamicheskikh glossariev [Tekst]: diss….k. tekh. nauk: 05.13.18 / Sergei Viktorovich Kuleshov. – SPb., 2005. – 113 s.
7. Starodubtseva, Yu. A. Issledovanie parametricheskogo yadra russkoi leksiki po dannym MAS-2 / Yu. A. Starodubtseva // Vestnik VGU. Seriya Lingvistika i mezhkul'turnaya kommunikatsiya.-№ 4, 2015. – S. 82-91.
8. Mitra, R. N. If there wasn't death / R. N. Mitra. – Denver, Colorado: Outskirts Press Inc., 2007. – 230 p.
9. Mitra, R. N. Impute Fall to Sin / R. N. Mitra. – M.: Manager, 2005. – 336 r.
10. Mitra, R. N. A Rain Full of Ghosts / R. N. Mitra. – Baltimore: Publish America, 2004. – 366 p.
11. Mitra, R. N. A Very Insipid Passion / R. N. Mitra. – M.: Manager, 2002. – 336 s.
12. Mitra, R. N. As in the falling of an eyelid (otryvok chasti knigi). – [Elektronnyi resurs] / R. N. Mitra. – Rezhim dostupa: URL: http://www. members.tripod.com/~ShibaHill/eyelid.html, svobodnyi. – Yaz. angl., data obrashcheniya: 20. 02.2016.
13. Mitra, R. N. At The Davies: A Novel of Medical Life (otryvok chasti knigi). – [Elektronnyi resurs] / R. N. Mitra. – Rezhim dostupa: URL: http://www.members.tripod.com/~ShibaHill/atthedavies.html, svobodnyi. – Yaz. angl., data obrashcheniya: 20.02.2016.
14. WordSmith Tools [Elektronnyi resurs]. – Rezhim dostupa: http://www.lexically.net/wordsmith/index.html, svobodnyi. – Zagl. s ekrana. – Yaz. angl., data obrashcheniya: 20.02.2016.

Journals

Books

Quantitative Research of the Author English-Language Corpus by Raghu N. Mitra