Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Philology: scientific researches
Reference:

The concept of creation of folklore subcorpus of the national corpus of Yakut language: articulation of the problem, structure, and technique

Kuzmina Aitalina Akhmetovna

PhD in Philology

Senior Scientific Associate, Institute for the Humanities and Problems of the Indigenous Peoples of the North of Siberian Branch of the Russian Academy of Sciences

677027, Russia, respublika Sakha (yakutiya), g. Yakutsk, ul. Petrovskogo, 1, of. 414

aitasakha@mail.ru
Other publications by this author
 

 

DOI:

10.7256/2454-0749.2020.11.34168

Received:

19-10-2020


Published:

26-10-2020


Abstract: This article is dedicated to the creation of a folklore subcorpus of the national corpus of Yakut language. The need for creating a folklore subcorpus is substantiated by fact that it illustrates the initial, historical path of development of a particular language, cultural and linguistic richness, and folk traditions. Language corpora are considered incomplete if not contain folklore texts. The development of such subcorpus has a number of theoretical and technological difficulties, which defines the relevance of this work. The object of this research is the folklore subcorpus of the national corpus of Yakut language. The subject is articulation of the problem, structure, and technique of creating this subcorpus. Attention is focused on the problematic of creation of a folklore subcorpus. The scientific novelty lies in the fact that this article is first to develop the concept of creation of the Yakut folklore corpus and determine the cognate problems, structure and technique of its formation. It is revealed that the structure of folklore subcorpus must reflect the genre differences, forms of record, authenticity, various databases that characterize a folklore text, its performer or register.  The author determines the work stages and preparation technique of the folklore subcorpus. The conclusion is made that the folklore subcorpus can serve as a method for solution of fundamental and applied tasks of Yakut philology, as well as one of the ways to preserve folklore heritage of the Sakha people.


Keywords:

folklore subcorpus, national corpus of the language, Yakut language, Yakut folklore, corpus folklore, metadata, markup, textual criticism, concept of creation, databases


Благодарности: Статья написана в рамках проекта гранта РФФИ № 19-012-00170 «Якутские фольклористы: биобиблиографический словарь».

В связи с развитием компьютерных технологий в последние несколько десятилетий актуальной задачей стало создание национальных корпусов языков [2, 14]. К настоящему моменту назрел вопрос о создании Национального корпуса якутского языка (НКЯЯ). Несмотря на то, что уже имеется некоторый практический опыт в этом направлении, работа ведется разобщенно, преимущественно энтузиастами-технарями, без обстоятельной научно-методологической базы [1, 8, 9, 15]. На наш взгляд, следует уделить серьезное внимание развитию данного направления, выработать общую концепцию, теоретические подходы к созданию НКЯЯ.

В структуру национального корпуса языка традиционно входит фольклорный подкорпус [16]. Необходимость создания фольклорного подкорпуса обусловлена тем, что он показывает начальный, исторический путь развития того или иного языка, культурное, языковое богатство, традиции народа. Сама сущность фольклора подразумевает его коллективное создание, анонимность авторства, традиционность, локальность, вариативность, импровизацию, синкретизм и т. д. Здесь также важно отметить, что фольклористика является корпусно-ориентированной областью гуманитарной науки: работа с большим объемом фольклорных текстов предполагает создание различных указателей, баз данных, электронных ресурсов и т. д. [5–7, 13, 17, 18]. Языковые корпусы без репрезентации фольклорных текстов представляются неполноценными, неполными. Считаем, что отражение этого наследия необходимо и в НКЯЯ, подкорпус якутского фольклора должен стать его неотъемлемой частью.

Актуальность данной работы заключается в том, что если технология создания других подкорпусов языка (основного, диалектологического, газетного и др.) в целом хорошо разработана, то фольклорный подкорпус до сих пор вызывает неоднозначные мнения у специалистов. Процесс его формирования осложняется и тем, что затруднен доступ к материалам, оцифровка фольклорных текстов находится почти на зачаточном уровне, не хватает квалифицированных специалистов и т. д.

Цель статьи заключается в исследовании возможных подходов к созданию фольклорного подкорпуса НКЯЯ и разработке его концепции. Новизна исследования состоит в том, что впервые разрабатывается концепция создания якутского фольклорного корпуса, выявляются связанные с этим проблемы, определяется структура подкорпуса, технология его формирования.

Научно-методологическую основу работы составляют труды текстологов [10], фольклористов [3, 4, 11, 12], исследователей по созданию национальных корпусов языков [6–9, 15, 16, 18]. Используются методы фольклорной текстологии, корпусной лингвистики, проектирование.

Целью фольклорного подкорпуса НКЯЯ является презентация, сохранение, исследование фольклорного наследия народа саха. Однако создание фольклорного подкорпуса НКЯЯ возможно при условии решения ряда существенных проблем, связанных с:

1) недостаточной разработанностью теоретической базы создания фольклорных корпусов вообще;

2) ограниченным доступом к архивным материалам, личным фондам собирателей, а также нерешенностью вопросов по авторскому праву;

3) малым количеством оцифрованных фольклорных записей;

4) почти полным угасанием аутентичного фольклора;

5) большим количеством текстов, изданных без соблюдения норм современной текстологии;

6) вопросами унификации, стандартизации текста ввиду использования различных алфавитов в разное время;

7) разной формой записи фольклорных текстов (рукописные, аудио-, видеоматериалы), что существенно усложняет процесс обработки данных;

8) нехваткой специалистов, а также компьютерных программ для работы с фольклорными текстами;

9) недостаточной исследованностью ряда проблем поэтики, мотивики, а также вопросов составления указателей и баз данных;

10) отсутствием полного каталога фольклорных записей;

11) нехваткой переводчиков, специализирующихся на фольклоре, и др.

Следует подробнее остановиться на том, что не все печатные тексты могут войти в фольклорный подкорпус НКЯЯ. Это обусловлено тем, что большая часть книг по фольклору относится к популярному и научно-популярному типам изданий. А в фольклорный подкорпус НКЯЯ должны включаться академические тексты, которые отвечают требованиям эдиционной текстологии. К ним в первую очередь относятся издания из серии «Памятники фольклора народов Сибири и Дальнего Востока», «Саха боотурдара». Тома из серии «Образцы народной литературы якутов», подготовленные Э. К. Пекарским, безусловно, представляют большую научную ценность для фольклористов, тем не менее они еще полностью не исследованы с точки зрения текстологии: требуется сличение рукописей, изданий, выявление базового текста, транскрипция и т. д. В связи с этим включать данные тексты в фольклорный подкорпус НКЯЯ на сегодняшний день преждевременно, можно приложить разве что отсканированный материал с целью его сохранения и презентации.

Перед фольклорным подкорпусом НКЯЯ должны ставиться не только лингвистические, но и фольклористические цели. Во многих исследованиях фольклорных текстов внимание сосредоточено только на выявлении их лингвистических (грамматических, семантических, лексических) особенностей. Однако специфика самого фольклора диктует свои правила. В фольклорном подкорпусе экстралингвистические метаданные должны быть отражены в полном объеме, и по ценности эти данные не уступают лингвистическим, так как они характеризуют особенности фольклорного текста и расширяют исследовательские возможности.

Составляют определенную сложность, но одновременно и вызывают большой интерес слова из фольклорных текстов, отсутствующие в томах «Большого толкового словаря якутского языка» и в диалектологических словарях. Выявление и объяснение таких слов создает перспективу языковедческого исследования.

В составе фольклорного подкорпуса необходимо представить тексты из разных локальных (региональных) традиций якутского фольклора. Такой подход не противоречит принципам якутской диалектологии, а в какой-то степени поможет и диалектологическому подкорпусу НКЯЯ. Следует по возможности отражать разновременные записи, издания (варианты) фольклорных текстов.

В первую очередь в подкорпус должны войти аутентичные фольклорные тексты. Современные, авторские, литературно обработанные (неаутентичные) произведения следует включать только после формирования фонда аутентичных текстов. Проблема заключается еще в том, что не все неаутентичные тексты определены: многие из них отмечены как настоящие, подлинные, традиционные фольклорные произведения, что может создать путаницу.

Структура фольклорного подкорпуса НКЯЯ должна отражать следующую информацию о текстах:

– жанровые отличия (олонхо, сказки, народные песни, несказочная проза, малые жанры фольклора, обрядовая поэзия и т. д.);

– форма записи (письменная, аудио-, видеозапись);

– тип фиксации (самозапись, фонд собирателя);

– характер аутентичности;

– различные базы данных (указатель сюжетов, мотивов, персонажей, топонимов, этнонимов, формул, метрика, собиратели, исполнители и т. д.), характеризующие фольклорный текст, его исполнителя и фиксатора.

Технология создания фольклорного подкорпуса НКЯЯ отличается от создания остальных подкорпусов особой сложностью и многоаспектностью.

Первый этап работы предполагает отбор подходящих фольклорных текстов. Желательно создать специальную комиссию экспертов, специализирующихся в данной сфере, так как неправильно выбранный текст в будущем может породить большие трудности.

На втором этапе отобранные тексты сканируются и оцифровываются. Несмотря на кажущуюся простоту, этот вид работы требует колоссальных временных, человеческих, технических и финансовых ресурсов. Необходимо решить вопросы о месте хранения оцифрованной информации, об обеспечении ее сохранности. Например, отсканированные материалы со временем могут стать недоступными (перестать «открываться») из-за каких-либо технических, компьютерных проблем.

На третьем этапе фольклорные тексты проходят первичную обработку (распознавание, унификация, транскрипция, транслитерация, расшифровка текста). Аудио-, видеоматериалы в зависимости от их качества могут подвергаться очистке от лишних шумов, при этом следует сохранить исходный вариант для сравнительного анализа. На данном этапе необходимо проводить двойную-тройную сверку текстов, при этом каждый раз меняя специалиста (того, кто этим занимается), чтобы добиться точной передачи фольклорного текста.

На четвертом этапе составляются лингвистические и экстралингвистические (фольклористические) разметки, добавляются метаданные, осуществляется перевод на русский язык (желательно), в музыкальных материалах производится нотирование, чтобы эту информацию можно было обнаружить по специальной поисковой системе. Экстралингвистические метаданные должны дать полные паспортные, археографические, текстологические сведения о каждом тексте.

На пятом этапе фольклорный подкорпус НКЯЯ подвергается тестированию с целью выявления ошибок и их исправления, затем следует окончательный запуск проекта. При этом система должна быть открытой, т. е. иметь возможность пополнения подкорпуса новыми текстами.

Таким образом, создание фольклорного подкорпуса Национального корпуса якутского языка – это не только необходимый инструмент для решения фундаментальных и прикладных задач якутской филологии в целом, но и одна из возможностей сохранения фольклорного наследия народа саха. Существует целый ряд проблем, требующих незамедлительного решения. Структура фольклорного подкорпуса НКЯЯ обусловлена существованием фольклорных текстов, различных по жанру, форме записи, типу фиксации, аутентичности, базам данных. Технология создания фольклорного подкорпуса НКЯЯ состоит из пяти этапов, каждый из которых имеет свою специфику реализации.

References
1. Bochkarev V. V. Mashinnyi fond yakutskogo yazyka // Elektronnaya pis'mennost' narodov Rossiiskoi Federatsii: opyt, problemy i perspektivy: Materialy II Mezhdunarodnoi nauchnoi konferentsii (Ufa, 11–12 dekabrya 2019 g.) / pod obshch. red. chl.-korr. AN RB A. I. Akmanova. Ufa: Bashk. entsikl. 2019. S. 59–61.
2. Zakharov V. P., Bogdanov S. Yu. Korpusnaya lingvistika: uchebnik. 3-e izd., pererab. SPb.: Izd-vo S.-Peter. un-ta, 2020. 234 s.
3. Ivanova T. G. Spetsifika fol'kloristicheskoi tekstologii // Russkii fol'klor: Nauchnye izdaniya. T. 26. Problemy tekstologii fol'klora. L.: Nauka, 1991. S. 5–21.
4. Kuz'mina A. A. Tekhnologiya editsionnoi tekstologii olonkho // Vestnik Severo-Vostochnogo federal'nogo universiteta im. M. K. Ammosova. Seriya: Eposovedenie. 2018. № 3 (11). S. 109–120. DOI: 10.25587/SVFU.2018.11.16943
5. Kuz'mina E. N., Silant'ev I. V. Elektronnyi resurs «Fol'klor narodov Sibiri»: tekstovoe, semanticheskoe i mul'timediinoe predstavlenie // Pis'mennoe nasledie i informatsionnye tekhnologii «EL'MANUSCRIPT-2015». Novosibirsk: Gosudarstvennaya publichnaya nauchno-tekhnicheskaya biblioteka SO RAN, 2015. S. 77–79.
6. Kukanova V. V. Fol'klornyi podkorpus: problemy, struktura i perspektivy issledovaniya // Uchastie kalmykov v ukreplenii rossiiskoi gosudarstvennosti. Materialy regional'noi nauchno-prakticheskoi konferentsii, posvyashchennoi 1150-letiyu rossiiskoi gosudarstvennosti i Godu rossiiskoi istorii / Redkol.: N. G. Ochirova (otv. red.), E. P. Bakaeva, K. N. Maksimov, E. U. Omakaeva. Elista: Kalmytskii nauchnyi tsentr RAN, 2012. S. 193–198.
7. Kukanova V. V., Mandzhieva B. B., Goryaeva B. B. Otsifrovka kalmytskikh fol'klornykh proizvedenii: vyzovy i resheniya // Izvestiya vysshikh uchebnykh zavedenii. Severo-Kavkazskii region. Obshchestvennye nauki. 2013. № 6 (178). S. 123–129.
8. Leont'ev N. A., Sleptsov I. A. Identifikatsiya tekstovogo dokumenta s pomoshch'yu trigramm na materialakh yakutskogo yazyka // Vestnik Severo-Vostochnogo federal'nogo universiteta im. M. K. Ammosova. 2015. № 4 (48). S. 45–50.
9. Leont'ev N. A., Torotoev G. G. Mnogopol'zovatel'skaya morfologicheskaya razmetka korpusa yakutskogo yazyka // Elektronnaya pis'mennost' narodov rossiiskoi federatsii: opyt, problemy i perspektivy. Sbornik materialov Mezhdunarodnoi nauchnoi konferentsii. Syktyvkar: Komi respublikanskaya akademiya gosudarstvennoi sluzhby i upravleniya, 2017. S. 101–103.
10. Likhachev D. S. Tekstologiya. Kratkii ocherk. M.-L.: Nauka, 1964. 102 s.
11. Markovskaya E. V. Problemy sobiraniya, sistematizatsii i arkhivnogo khraneniya fol'klora (na materiale fol'klornykh arkhivov KarNTs RAN): avtoref. diss. … k. filol. n. Petrozavodsk, 2006. 17 s.
12. Minenok S. A. Videofiksatsiya fol'klora (Nekotorye osobennosti i primery) // Fol'klor. Kompleksnaya tekstologiya. M.: Nasledie, 1998. S. 178–191.
13. Moskin N. D. Teoretiko-grafovye modeli fol'klornykh tekstov i metody ikh analiza. Petrozavodsk: Petrozavodskii gosudarstvennyi universitet, 2013. 148 s.
14. Natsional'nyi korpus russkogo yazyka [Elektronnyi resurs] // Natsional'nyi korpus russkogo yazyka. URL: https://ruscorpora.ru (data obrashcheniya: 10.10.2020).
15. Nikolaev E. R. Podkorpus dialektnoi leksiki yakutskogo yazyka v usloviyakh tsifrovizatsii (postanovka problemy) // Elektronnaya pis'mennost' narodov Rossiiskoi Federatsii: opyt, problemy i perspektivy: Materialy II Mezhdunarodnoi nauchnoi konferentsii (Ufa, 11–12 dekabrya 2019 g.) / pod obshch. red. chl.-korr. AN RB A. I. Akmanova. Ufa: Bashk. entsikl. 2019. S. 30–31.
16. O fol'klornom podkorpuse Natsional'nogo korpusa russkogo yazyka // Traditsionnaya kul'tura. 2012. № 1 (45). S. 14–25.
17. Rafaeva A. V. Komp'yuternye metody analiza fol'klornogo teksta // Kompleksnye issledovaniya traditsionnoi kul'tury v postsovetskii period: sb. nauchnykh statei. M.: Gosudarstvennyi respublikanskii tsentr russkogo fol'klora, 2011. S. 179–204.
18. Tuchkova N. A. Korpusnyi metod v fol'kloristike i ego vozmozhnosti dlya etnograficheskikh issledovanii (opyt ispol'zovaniya na sel'kupskom fol'klornom materiale) // Tomskii zhurnal lingvisticheskikh i antropologicheskikh issledovanii. Tomsk Journal of Linguistics and Anthropology. 2018. № 2 (20). S. 100–111.