Library
|
Your profile |
Litera
Reference:
Grushina O.A.
Analysis of modern media texts in Swahili language using the methods of corpus linguistics
// Litera.
2020. № 1.
P. 247-256.
DOI: 10.25136/2409-8698.2020.1.31993 URL: https://en.nbpublish.com/library_read_article.php?id=31993
Analysis of modern media texts in Swahili language using the methods of corpus linguistics
DOI: 10.25136/2409-8698.2020.1.31993Received: 19-01-2020Published: 07-03-2020Abstract: This article examines the application of corpus linguistics techniques for analyzing modern media texts in Swahili language. The language of mass media is representative and productive for the analysis and extraction of terms referred to the various spheres of speech use. The subject of this research is the peculiarities of determination of simple and compound medical terms and phrases in the Swahili language media texts by analyzing data on the frequency of using n-gram. To undertake this study, the author comprised the body of media texts based on the materials of Mtanzania newspaper published in 2014-2019. The methods of corpus linguistics and computer analysis were applied for collection of materials and analysis of the acquired data. The results of the conducted research demonstrated the effectiveness of the use of extraction technique if the relevant simple and compound medical terms by analyzing the body of media texts of the section Afya na Jamii, healthcare and social sphere using the UNIX system. An undeniable advantage of analysis of the body of media texts is the use of a “living” language with lexical saturation relevant for the present time. The obtained results may find future practical application: after processing by the lexicographers and experts in the area of medicine, the discovered terms and phrases can be used for composing specialized thematic dictionaries in Swahili language. Keywords: Swahili, mediatext, corpus, mass media, mass media language, dictionary, terminology, n-grams, medical terms, corpus-based linguisticsВ условиях глобализации инфосферы и совершенствования информационных технологий, медийная сфера все больше становится неотъемлемой частью жизни современного человека. Масс медиа являются основным источником информации о событиях, происходящих в мире, которая транслируется массовой аудитории в форме дискретных единиц информационных потоков — медиатекстов — посредством различных каналов (печатных изданий, телевидения, радио, интернета). Одним из самых распространенных каналов генерирования и распространения медиатекстов является интернет, благодаря которому многие издания, ранее существовавшие только в печатном формате, обрели онлайн–версии, что помогло им расширить свою аудиторию. Медийный язык является прекрасным примером современного «живого», а не «искусственного» языка, который регулярно обновляется и понятен массовому читателю. Язык СМИ репрезентативен и продуктивен для анализа и вычленения терминов и выражений, актуальных на данный момент времени и относящихся к различным сферам речепользования. Данная работа посвящена описанию методов корпусной лингвистики, применяемых для выявления как единичных, так и составных медицинских терминов и выражений в языке суахили путем анализа данных по частотности употребления n–грамм. Выбор медицинской тематики обусловлен несколькими причинами: — узкая специализация медицинской терминологии и одновременно необходимость того, чтобы она была понятна не только специалистам в области медицины; — использование медицинских терминов в медиатекстах, рассчитанных на массовую аудиторию, предполагает владение реципиентами данной терминологией, и, соответственно, она относится к «живому» актуальному лексическому пласту; — медиатексты интернет–версий СМИ обычно категоризированы, так, в нашем случае в издании Mtanzania Танзаниец выделен раздел Afya na jamii Здравоохранение и социальная сфера, что позволяет получить релевантные медиатексты для составления корпуса. Следует отметить, что в лексикографии языка суахили существуют лишь отдельные небольшие словари и терминологические словники по различным отраслям знания, составленные традиционным интуитивно–выборочным способом по причине отсутствия достаточных технических и экономических ресурсов, хотя разработке терминологии на языке суахили уделялось значительное внимание. Это во многом было обусловлено языковой политикой, принятой в Танзании после провозглашения независимости. Так, в 1967 г. был создан Национальный совет языка суахили (Baraza la Kiswahili la Taifa = BAKITA), задачами которого было развитие и поддержка языка, его стандартизация, а также разработка терминологии. Аналогичные задачи по укреплению роли суахили как государственного языка Танзании были возложены на Научно–исследовательский институт языка суахили (Taasisi ya Uchunguzi wa Kiswahili = TUKI), созданный в 1974 г. на базе Межтерриториального языкового комитета языка суахили. Таким образом, задача разработки терминологии велась в стенах государственных учреждений и достигла определенных успехов. До середины 1980–х гг. были выпущены словники, посвященные различным областям знания, как например заболеваниям домашнего скота, агрономии, сельскохозяйственной инженерии, растениям и др. BAKITA также оказал содействие выпуску «Англо–суахили технического словаря» (1987), содержащего около 8000 технических терминов. К середине 1980–х гг. деятельность по разработке терминологии была приостановлена по причине ослабления поддержки со стороны государства. В течение 20 лет не было издано ни одного терминологического словника. Работа возобновилась лишь в 2003 г., когда были составлены терминологические списки слов, относящихся к тематической категории «СПИД и другие заболевания», а в 2004 г. — терминологические списки по литературе, психиатрии и другим областям знаний [1]. Активную работу по составлению и выпуску терминологических словников вел также TUKI, который выпустил ряд работ: «Терминология автомобильных и тракторных механизмов» [2], «Англо–суахили словарь по экономике и торговле» [3], «Англо–суахили словарь юридической терминологии» [4], «Медицинский словарь» [5], «Словарь по истории» [6] и другие. К сожалению, работа по созданию терминологии, которая велась в стенах государственных специализированных учреждений, охватывала лишь некоторые области жизнедеятельности общества и по скорости отставала от стремительных изменений в области науки, техники, экономики, политической, социальной и культурной областей. Данные учреждения не обладали достаточными ресурсами для своевременного генерирования всего объема актуальной терминологии, отражающей современные реалии. Все это привело к созданию неофициальной терминологии, которая рождалась в среде тех, кого непосредственно затрагивали изменения и нововведения. Объем терминологии, появившейся неформально, спонтанно за последние годы, неуклонно растет. Данные термины требуют проверки и стандартизации со стороны специалистов [1]. Однако вплоть до настоящего времени специализированные учреждения не вовлечены активно в данный процесс, что приводит к некоему антагонизму официальной и неофициальной терминологии. Эксперты в области лингвистики рассматривают термины, созданные неофициально, как идущие вразрез с общепринятыми правилами и не соответствующие принципам стандартизации. В свою очередь, те, кого непосредственно касаются изменения и нововведения, так называемые «практики», вынуждены восполнять пробелы и генерировать термины, отражающие современные реалии, при этом они не используют официальные термины, которые создаются с опозданием или кажутся им странными для номинации понятий в соответствующих областях [7]. Таким образом, в настоящее время отсутствует формализованный эффективный процесс создания стандартизированной актуальной терминологии, своевременно фиксирующей современные реалии. Данные процессы привели к тому, что в суахили для номинации одного и того же понятия может существовать несколько наименований, которые отличаются степенью распространенности. Исследование же лексики современных медиатекстов позволяет понять, какие термины и выражения той или иной семантической группы наиболее знакомы массовой аудитории, используются не в узких кругах специалистов, а среди широких масс. В последнее время совершенствование компьютерных технологий послужило катализатором «корпусной революции», которая, несмотря на различные трудности, не обошла стороной ряд африканских языков, включая и суахили [8]. Одним из крупнейших корпусов на языке суахили является общий корпус текстов, разработанный в Университете Хельсинки под руководством А. Хурскайнена, содержащий около 25 миллионов слов. За его основу были взяты различные литературные произведения на суахили, а также материалы прессы. Исследователи из Кении и ЮАР разработали параллельный корпус суахили и английского языков для машинного перевода. Корпус SAWA включает в себя разнообразные тексты: из Библии, Корана, субтитры к фильмам, инвестиционные отчеты, и другие. Общее количество токенов (словоформ) на английском языке 1463 миллиона, на суахили — 1201 миллион [9]. Танзанийские исследователи из Университета в Дар–эс–Саламе разработали тематический корпус языка суахили по медицине (С. Севанги и другие) содержащий около 2 миллионов слов. Для его создания были использованы тексты из книг, специализированных журналов, брошюр. Данный корпус, наряду с общим корпусом, состоящим из 500 тысяч слов, составленным на основе новостных текстов различных интернет–изданий, использовался в работе С. Севанги и П. Даниэльссон для выявления определений медицинских терминов [10]. Разнообразие корпусов обусловлено разнородностью задач, стоящих перед лингвистами. Для целей нашей работы — выявления актуальных медицинских терминов и выражений — существующие корпусы неприменимы, так как они содержат в том числе и устаревшие медиатексты, не категоризированные по определенным тематическим группам, то есть не содержат исключительно современные медиатексты медицинской тематики. Особое внимание в нашей работе уделяется выявлению современных терминов и выражений, которые встречаются в текстах, рассчитанных на массовую аудиторию, то есть актуальны и понятны широкой аудитории. Именно поэтому для составления нашего корпуса были использованы материалы исключительно современных медиатекстов на языке суахили. При составлении корпуса мы руководствовались рядом общепризнанных принципов, таких как объем, сбалансированность, репрезентативность, релевантность для целей исследования, систематизация с точки зрения структуры и содержания. Материалами для данного исследования послужили медиатексты интернет–издания Mtanzania Танзаниец, опубликованные в 2014–2019 гг. Выбор данного издания обусловлен его ориентированностью на читателей среднего класса, то есть изложение должно быть доступно и понятно массовому читателю, а значит используемый язык достаточно стандартный, не специализированный. В рамках издания медиатексты логично систематизированы: сгруппированы по тематическим разделам, что позволяет легко вычленить материалы, необходимые для составления корпуса. Для целей нашей работы были использованы тексты раздела Afya na Jamii Здравоохранение и социальная сфера. Немаловажным представляется тот факт, что разделы интернет–издания Mtanzania обновляются на регулярной основе, что предоставляет нам возможность получить достаточно материала для анализа. На основании данных медиатекстов в электронном формате нами был сформирован тематический корпус. Общее количество медиатекстов, использованных для составления корпуса, составляет 584 единицы, общее количество слов (словоформ, токенов) — 285 477 (из них уникальных типов токенов — 29 981). Для сбора данных нами были написаны скрипты, позволившие собрать ссылки на новостные статьи раздела Afya na Jamii, а затем скачать тексты этих статей, сформировав таким образом общий тематический файл. Далее каждый файл был преобразован так, чтобы на одной строке содержалось одно предложение. В результате мы получили корпус в формате, доступном для дальнейшего анализа. Из полученного корпуса были сформированы следующие файлы: списки частотности употребления слов; список частотности биграмм, триграмм. В сформированных файлах вручную анализируются конкордансы на предмет коллокаций — словосочетаний, представляющих собой синтаксически и семантически целостную единицу. Под конкордансами понимается набор контекстов, в которых встречается слово или словосочетание. Для верификации результатов была использована программа AntConc, которая подтвердила полученные результаты. Однако небольшие расхождения показали, что программа AntConc менее точна при анализе корпуса текстов, так, например, в программе не учитывается различие между знаками дефис и тире. Последовательная проверка и анализ списка частотности употребления слов позволила выявить термины, слова и выражения медицинской и социальной тематики. В Таблице 1 представлены 20 наиболее часто встречающихся слов данной тематики.
Таблица 1.
Данные по частоте встречающихся в корпусе биграмм, триграмм приведены в Таблицах 2 и 3 соответственно. Таблица 2
Как правило, биграммы состоят из: а) транзитивного глагола, управляющего прямым дополнением: kuimarisha afya укреплять здоровье (частотность 18), kuchangia damu сдавать кровь (частотность 16); б) пассивной формы глагола, указывающей, что агенс подвергается некой процедуре, номинируемой дополнением: kupatiwa matibabu букв.быть тем, кому предоставляют лечение > получать лечение (частотность 22), kufanyiwa uchunguzi быть обследованным (частотность 11); в) именной группы, образованной путем примыкания: tezi dume мужская железа/простата (частотность 30), uric acid мочевая кислота (частотность 14); г) именной группы, состоящей из существительного и согласованного с ним прилагательного: maumivu makali острая боль (частотность 27), waganga wakuu главные врачи (частотность 9). Таблица 3
Триграммы представляют собой именную группу «существительное + пассивный формант, согласованный по классу вершинного существительного + второе существительное». Последовательная проверка полученных результатов показала, что в анализируемом корпусе медиатекстов присутствует значительное число единичных и составных терминов, при этом отсутствуют определения в явной форме. Таким образом, можно сделать вывод о том, что авторы медиатекстов рассчитывают на владение реципиентами терминологией в достаточной степени для адекватного восприятия передаваемой информации, и дополнительные разъяснения не требуются. При этом значение того или иного термина может быть получено посредством анализа контекста и непосредственного окружения (коллокаций). Так, например, даже в тех случаях, когда реципиент не владеет терминами, означающими названия болезней, он может идентифицировать лексическую семантику данного термина благодаря наличию слов ugonjwa / magonjwa болезнь, заболевание / заболевания: magonjwa ya saratani онкологические заболевания (частотность 15), ugonjwa wa UKIMWI болезнь СПИД (частотность 10). Наши результаты значительно отличаются от данных, полученных С. Севанги и П. Даниэльссон при анализе термина UKIMWI (СПИД). Они выявили определения термина UKIMWI (СПИД) в явной форме, что объясняется использованием для составления корпуса специализированной, в том числе и обучающей литературы: UKIMWI ni hali anayoipata mtu wakati ambapo mwili wake hauwezi kujitengenezea kinga ya magonjwa. СПИД — это состояние, в которое приходит человек, когда его организм не вырабатывает иммунитет от заболеваний. UKIMWI ni ugonjwa anaoupata mtu baada ya kinga yake ya mwili kuharibiwa. СПИД – это болезнь, которую приобретает человек после того, как разрушается имунная система организма. Таким образом, применение методики вычленения актуальных единичных и составных медицинских терминов путем анализа корпуса медиатекстов раздела Afya na Jamii Здравоохранение и социальная сфера при помощи системы UNIX показало свою эффективность. Полученные результаты являются примером предварительных данных, которые нуждаются в дальнейшей обработке лексикографами и специалистами в области медицины. Неоспоримым преимуществом анализа корпуса медиатекстов является использование в них «живого» языка с лексическим наполнением, актуальным для определенного периода времени (в нашем случае период 2014–2019 гг.). Полученные результаты могут найти в дальнейшем практическое применение: после лексикографической обработки выявленные термины и выражения могут использоваться для составления специализированных тематических словарей на языке суахили. References
1. Legere K. Formal and informal development of the Swahili language: Focus on Tanzania. // Selected Proceedings of the 36th Annual Conference on African Linguistics, 2006, pp. 176–184.
2. Mwansoko H J M Istilahi za ufundi wa magari na matrekta, Dar es Salaam: Institute of Kiswahili Research in University of Dar es Salaam, 1997. 3. Tumbo–Masabo Z.N., Chuwa A.R. Kamusi ya biashara na uchumi: Kiingereza–Kiswahili, Dar es Salaam: Institute of Kiswahili Research in University of Dar es Salaam, 1997. 4. Mlacha S.A.K. Kamusi ya sheria : Kiingereza–Kiswahili, Dar es Salaam: Institute of Kiswahili Research in University of Dar es Salaam, 1999. 5. Mwita A. M. A., Mwansoko H. J. M. Kamusi ya Tiba, Dar es Salaam: Institute of Kiswahili Research in University of Dar es Salaam, 2003. 6. Mwansoko H.J.M., Tumbo–Masabo Z.N. Sewangi. S.S. Kamusi ya Historia. Dar es Salaam: Institute of Kiswahili Research in University of Dar es Salaam, 2004. 7. Sewangi S.S. Tapping the neglected resource in kiswahili terminology: automatic compilation of the domain–specific terms from corpus // Nordic Journal of African Studies, Vol.9, No.2, 2000, pp. 60–84 8. Vydrin V.F. Elektronnye korpusa afrikanskikh yazykov: zavtra ili poslezavtra? // Peterburgskaya afrikanistika. Pamyati A.A. Zhukova. SPb.: Izdatel'stvo Sankt–Peterburgskogo universiteta, 2008. str. 279, s. 29–39 9. Aaron M.O. et al. Swahili text and speech corpus: a review // Asian Journal of Computer Science And Information Technology, Vol. 2. No. 11, 2012, pp. 286–290. 10. Sewangi S.S., Danielsson P. Deriving contextual defining information for technical terms from specialized corpus — the case of Kiswahili health care terminology // Kiswahili. Journal of the Institute of Kiswahili Research, Vol. 72, 2009, pp. 37–51. |