Library
|
Your profile |
Historical informatics
Reference:
Borodkin L.
Review of Arnold T., Tilton L. Humanities Data in R: Exploring Networks, Geospatial Data, Images and Text. Springer, 2017. - 211 p.
// Historical informatics.
2018. № 2.
P. 126-132.
DOI: 10.7256/2585-7797.2018.2.26986 URL: https://en.nbpublish.com/library_read_article.php?id=26986
Review of Arnold T., Tilton L. Humanities Data in R: Exploring Networks, Geospatial Data, Images and Text. Springer, 2017. - 211 p.
DOI: 10.7256/2585-7797.2018.2.26986Received: 26-07-2018Published: 02-08-2018Abstract: The article briefly describes the integrated software R and the book by American authors about the use of R in humanities and social sciences. This book demonstrates functions of R which has become popular in applied studies of different research fields and now is widely used in humanities as well. The authors’ aim is to teach the humanities readers to use R functions in four spheres of data work which are important for humanities scholars and represented by networks, texts, maps and images. The book employs the comparative approach (to compare R package with other software tools) and is the first to characterize R when one works with data of studies in humanities. Taking into account that R is not widely applied by Russian humanities scholars, brief information about this nontrivial software is provided. The open source programming language R and its numerous packages is conspicuous of modern approach to analyze heterogeneous data. Keywords: R software, network analysis, analysis of geospatial data, text analysis, image processing, exploratory data analysis, natural language analysis, method of principal components, cluster analysis, digital humanitiesКнига Лорен Тилтон и Тэйлора Арнольда издана в серии «Quantitative Methods in the Humanities and Social Sciences». Эта серия издательства Шпрингер ориентирована на исследователей, применяющих вычислительные методы, статистические модели, компьютерный анализ данных, представленных в различных форматах в гуманитарных и социальных исследованиях. Каждый том серии открывает читателям новые междисциплинарные подходы и конкретные методы, уже нашедшие применение в работах историков, археологов, филологов, политологов. В последние годы в этой серии вышло несколько книг, представляющих интерес для представителей различных гуманитарных и социальных наук [1],[2],[3],[4],[5],[6],[7]. Рецензируемая книга показывает читателям часть возможностей программного обеспечения R, получившего в течение последнего десятилетия широкое распространение в прикладных исследованиях самых разных областей знания, включая теперь и гуманитарные науки. Учитывая, что опыт применения Rроссийскими гуманитариями пока невелик, целесообразно привести здесь краткие сведения об этой незаурядной разработке. Тем, кто знаком с данным программным продуктом, можно порекомендовать обратиться непосредственно к тексту рецензии, пропустив нижеследующий вводный текст. R нередко определяют как язык программирования, предназначенный для статистического анализа данных и продвинутого инструмента для работы с графикой; в то же время R рассматривается как свободная программная среда вычислений с открытым исходным кодом. Язык R ведет свое начало из университета Оклэнда (Новая Зеландия), где в 1995 г. на факультете статистики усилиями Роберта Джентльмена и Росса Айхэка была создана первая версия R (получившая свое название по первой букве имен разработчиков). Предшественником R был язык S, разработанный в Bell Labs. Язык и среда R поддерживаются и развиваются фондом R Foundation. В течение последнего десятилетия R стал рассматриваться как стандарт для статистических пакетов. Существенно, что R является свободно распространяемым программным обеспечением. Пользователь может бесплатно скачать его с сайта http://www.rproject.org и без проблем установить под Windows, MacOS X, Linux. Если пользователю нужна нестандартная обработка статистических данных, он может установить дополнительно вспомогательные пакеты с необходимыми опциями или самостоятельно сформировать необходимые функции. Предусмотрена возможность обмена данными с электронными таблицами из стандартных объектов. Отметим, что R позволяет обрабатывать достаточно большие массивы данных (несколько сотен тысяч объектов), но когда объем этих данных измеряется терабайтами, можно говорить о приближении их классу Big Data, что требует хранения таких массивов в распределенном режиме, на нескольких серверах, с возможностью параллельной обработки данных. С этой целью можно использовать модификацию R – пакетpbdR (Programming with Big Data in R). Такие задачи могут появиться в гуманитарных исследоваях в недалеком будущем. Следует отметить, что пользователь–гуманитарий может столкнуться с одной немаловажной проблемой пакета R: он не имеет привычного графического интерфейса (в отличие от большинства коммерческих пакетов); напротив, R имеет интерфейс командной строки, и, стало быть, пользователь должен знать синтаксис языка программирования и уметь формулировать задание системе, используя в командной строке элементы языка R. Зато пользователь получает возможность написания собственных нестандартных процедур статистической обработки данных. Появление новых версий R, расширение его возможностей не обеспечено привычной коммерческой поддержкой, но пользователи могут включиться в международную систему рассылки сообщений об обновленияхR. Существенно, что используемые многими пользователями статистические пакеты теперь совместимы с R, что позволяет расширить возможности данных сред, открывать и запускать программы R в ходе работе, например, с пакетом STATISTICA. Интеграция этих пакетов дает возможность запускать скрипты R в оболочке STATISTICA, вызывать программы R из STATISTICA Visual Basic, расширяя функционал STATISTICA с помощью библиотек R. Существенно, что начиная с 10-й версии пакета STATISTICA процесс взаимодействия с R осуществляется автоматически. Отметим, что такая интеграция пакетов ранее была проведена с другими статистическими пакетами – теми, которые имеют интерфейс командной строки (SAS, Stata, SYSTAT). В течение последнего десятилетия создано немало пособий для пользователей R (см., например, [8, [9],[10],[11],[12],[13],[14],[15],[16],[17],[18]). Как отмечают многие авторы этих пособий, основные преимущества R, его вычислительная мощь лучше всего проявляются в задачах статистического анализа. Однако для пользователей-гуманитариев не меньший интерес могут представлять и другие возможности R, отражающие специфику данных гуманитарных наук. Этим возможностям и посвящена рецензируемая книга Л. Тилтон и Т. Арнольда, имеющая в значительной мере характер учебного пособия. * * * Название книги («Данные гуманитарных наук в R: изучение сетей, геопространственных данных, имиджей и текстов») указывает цель авторов – научить читателей-гуманитариев использовать возможности R в четырех областях работы с данными, важных для гуманитариев и представленных сетями, текстами, картами и изображениями. Эта книга призвана стать мостом между количественными и качественными методами, индивидуальной и проектной работой исследователей, гуманитарными и социальными науками, а также между этими науками - с одной стороны и цифровыми технологиями, современными методами анализа данных – с другой. Авторы исходят из того, что читатель не обладает базовыми знаниями из области программирования. Язык программирования с открытым исходным кодом R, с его многочисленными пакетами и популярностью как в естественных, так и в социальных науках подходит и для работы с данными, которые характерны и для гуманитарных наук. Первая часть книги – вводная, она включает пять глав, характеризующих основные элементы языка программирования R и структуры данных, используемых в R на этапе разведочного анализа данных (EDA – exploratory data analysis). В наших учебниках по математической статистике этот раздел называют обычно дескриптивной статистикой (включая статистические распределения с соответствующей графикой). В главе 2 вводятся понятия числовых и логических векторов, матриц и фреймов, а также форматов данных ввода/вывода; предлагаются методы работы с пропусками в массиве данных. Глава 3 посвящена методам работы с непрерывными (количественными) и дискретными, категориальными (качественными) признаками. Здесь вводятся приемы работы с таблицами, гистограммами, квантилями, рассмотрены методы агрегирования данных, работа с функциями. Глава 4 называется «Многомерный анализ», но здесь не стоит ожидать описания привычного для нашего читателя набора методов (кластер анализ, факторный анализ. многомерное шкалирование). Рассматриваются диаграммы рассеяния, которые можно строить для любой пары признаков, точечные и кусочно-линейные графики, очень кратко дается понятие о матрице корреляций. В главе 5 вводится более сложная графика, визуализирующая изучаемый набор статистических данных. Рассмотрены различные графические форматы, в которых целесообразно сохранять графики. Много внимания уделено точечным графикам с использованием цвета, что позволяет более наглядно представить распределение различных категорий. Вторая (и основная) часть книги посвящена работе с данными в R, типичными для исследований в гуманитарных областях знания. В главе 6 рассмотрены методы сетевого анализа, дается понятие о теории графов и спектральной теории графов, а также о программе igraph, визуализирущей сеть. Анализ возможностей этой программы демонстрируется на примере сети цитирования. Важной характеристикой сети (графа) является показатель центральности для каждой вершины графа, который характеризует ее влиятельность в общей системе связей сети; материал главы наглядно иллюстрирует это свойство вершин графа, а также свойство «посредничества». Визуализация этих свойств сети улучшается с использованием цветовых маркеров. Глава 7 называется «Геопространственные данные». Во введении к этой главе упоминается фраза, которую связывают со специалистами, работающими с пространственными данными: «80 % данных содержат пространственную компоненту» (с. 95). R содержит специальный пакет для работы с картографическим материалом, представленном как в растровом, так и в векторном виде. В книге отмечается, что существуют, конечно, и ГИС-системы (в этой связи упоминаются QGIS, ArcGIS). В качестве преимущества ArcGIS авторы говорят о большом количестве картографического материала, уже готового к обработке в этой системе. Однако иногда, как отмечают Т. Арнольд и Л. Тилтон, ГИС трактуют как тип анализа, в то время как это исследовательский инструмент (курсив авторов книги, с. 95). R содержит два пакета, реализующих работу с векторными пространственными данными: spи maptools. В данной главе подробно характеризуются команды языка R для работы с такими данными. Много внимания уделяется возможностям использования табличных данных в пространственном анализе. В главе 8 рассматриваются методы и технологии ввода, обработки и хранения файлов изображений. Часто речь идет об оцифрованных произведениях искусства и фотографиях. В некоторых случаях обработке подвергаются материалы, содержащие текст. Конвертация образов текста в текстовой формат является интересной задачей компьютерной репрезентации документа. Процесс такой конвертации лучше выполнять с помощью специализированных коммерческих программ. Авторы отмечают, что в то время, как большинство проектов в области цифровой гуманитаристики работают с имиджами, только немногие из них уделяют внимание анализу самих изображений. В этой главе дается характеристика трех пакетов в R, которые используют три графических формата: tiff, jpeg, png. Каждый из них работает только с одним форматом и осуществляет две простых функции: чтение и запись изображений. Авторы демонстрируют возможности работы с имиджами на примере файлов в формате jpeg. Они рассматривают комбинации трех основных цветов (RGB), эта процедура выполняется с помощью пакета abind. В этой главе показана цветная диаграмма рассеяния для интенсивности основных цветов пикселей изображения. Для анализа различий в цветовой насыщенности используется диаграмма рассеяния. Предлагается использовать метод главных компонент (один из продвинутых методов многомерного статистического анализа), который сводит многообразие информации цветовой насыщенности имиджей к двум компонентам (обобщенным признакам). На наш взгляд, изложение для гуманитариев этого метода требует значительно большего объема. В этом разделе авторы используют также метод распространенный метод кластер анализа - k-средних, однако они не приводят сколь-нибудь подробного описания алгоритма кластеризации (в R эта процедура называется kmeans). Этот метод используется для группировки анализируемых имиджей по близости их цветовой гаммы. В главе подробно рассматривается методика построения диаграммы рассеяния по данным растровой графики, дается формулируют задачи сегментации имиджей и распознавания лиц. Не все из таких алгоритмов реализованы в R, но пакет grem предлагается в качестве хорошей стартовой позиции для анализа текстуры изображения в оттенках серого. Глава 9 посвящена обработке и анализу текстов на естественном языке (NLP – natural language processing). Здесь рассматриваются вопросы лексического анализа, разбора предложений и разметки частей речи. Синтаксический анализ имеет в R наглядную графическую структуру, которую обеспечивает пакет coreNLP. Здесь возникает проблема зависимости тэгов. Функция getDependency требует введения соответствующей книги кодов. Здесь же описывается метод составления списка основных терминов (entities). В этом случае главной является количественная характеристика относительной важности каждого из этих терминов. В качестве грубого приближения проводится измерение показателя, характеризующего частоту появления каждого термина в тексте. Это делает возможным табличное представление и сортировку терминов. Станфордская программа CoreNLP поддерживает синтаксический разбор и на языках, отличных от английского (китайский, испанский, немецкий, арабский, французский). Глава 10 посвящена анализу текстов. В этой главе рассматриваются несколько методов для извлечения содержания из коллекции текстов, в которых предварительно был проведен разбор структуры предложений. В предыдущей главе были представлены методы конвертации исходного текста в последовательность лексем и связывания этих лексем с различными метаданными и отношениями. Авторы здесь продолжают подход, развитый в предыдущей главе, характеризуя несколько методов для использования данных, полученных в программах CoreNLP, для исследования и визуализации корпуса текстовых документов. Алгоритмы, представленные в этой главе, характеризуют лемматизацию текста. Важным этапом при этом является информационный поиск с целью выявления всех уникальных лемм. На следующем этапе строится матрица частот их встречаемости. В разделе «тематические модели» данной главы показано, что тематика может проявляться на множестве документов. Авторы показывают, что аналогичные подходы разрабатывали Ноам Хомски и его коллеги. Модель, которую используют авторы в этом разделе, основана на латентном размещении Дирихле; соответствующий пакет в R называется mallet. Переходя к стилометрическому анализу, авторы обращают внимание на значительную роль частот лемм, отнесенных к той или иной теме. Алгоритмы стилометрии, рассмотренные в этом разделе, используют также метод главных компонент, о котором уже шла речь выше. Подсчитывается распределение частей речи, например, доля используемых глаголов как хорошо известная характеристика стиля. Здесь также рассматриваются диаграммы рассеяния, построенные на главных компонентах. Любопытно, что отобранные 50 наиболее часто встречающихся лемм включают мало служебных слов. Надо надеяться, что в дальнейшем этот анализ будет проводиться после удаления служебных слов. Важным разделом книги Т. Арнольда и Л. Тилтон является приложение (главы 10, 11, 12), которое содержит, в частности, 100 упражнений (с ответами), проверяющих навыки формирования командной строки при работе с различными форматами данных и с методами разведочного анализа, изложенными в главах 2-5. Сильной стороной книги является привлечение реальных данных историко-политического характера. Книга написана на доступном в целом для читателей-гуманитариев уровне, сочетающемся со строгостью и четкостью изложения. Этому способствует и междисциплинарный состав авторов, сотрудников Йельского университета: Т. Арнольд – специалист в области компьютеризованного анализа статистических данных, машинного обучения; Л. Тилтон специализируется в области истории США ХХ века, визуальной и медиа культуры. Перевод этой книги на русский язык способствовал бы росту интереса российских исследователей из различных областей гуманитарных и социальных наук к использованию возможностей R в задачах обработки и анализа разноформатных (нечисловых) данных источников. Что же касается возможностей работать с широким спектром продвинутых статистических методов, представленных в R и практически незатронутых в данной книге, то здесь можно посоветовать заинтересованным читателям обратиться к многочисленным пособиям по статистическим разделам R (см., например, приложенный список литературы); часть из них адаптированы к потребностям читателя, не имеющего базовых навыков программирования. Материал книги может с успехом использоваться как для самообучения, так и для обучения методам и технологиям R на факультетах гуманитарных и социальных наук, а также в практической деятельности архивов, музеев и библиотек – для внедрения новых способов и форм презентации и распространения информации историко-культурного характера. References
1. Lexical Collocation Analysis: Advances and Applications / Cantos-Gómez, Pascual, Almela-Sánchez, Moisés (Eds.). Springer, 2018.
2. Tracing the Life Cycle of Ideas in the Humanities and Social Sciences / Tuzzi, Arjuna (Ed.). Springer,2018. 3. Prehistoric Warfare and Violence: Quantitative and Qualitative Approaches / Dolfini, A., Crellin, R., Horn, C., Uckelmann, M. (Eds.). Springer, 2018. 4. Mixed-Effects Regression Models in Linguistics / Speelman, Dirk, Heylen, Kris, Geeraerts, Dirk (Eds.). Springer, 2018. 5. Desagulier, Guillaume. Corpus Linguistics and Statistics with R: Introduction to Quantitative Methods in Linguistics. Springer, 2017. 6. Heritage and Archaeology in the Digital Age: Acquisition, Curation, and Dissemination of Spatial Cultural Heritage Data / López-Menchero Bendicho, V.M., Ioannides, M., Levy, Th.E. (Eds.). Springer, 2017. 7. Digital Methods and Remote Sensing in Archaeology: Archaeology in the Age of Sensing / Forte, Maurizio, Campana, Stefano R.L. (Eds.). Springer, 2016. 8. Abedin Jaynal, Kumar Das Kishor. Data Manipulation with R. 2nd Edition. — Packt Publishing, 2015. — 130 p. 9. Albert J., Rizzo M. R by Example. Springer, 2012. — 374 p. — (Series "Use R!"). 10. Bilder C.R., Loughin T.M. Analysis of Categorical Data with R. Boca Raton: CRC Press Taylor & Francis, 2013.-533p. 11. Luke D.A. A User's Guide to Network Analysis in R. Springer, 2015. — 238 p. 12. Tattar P.N., Ramaiah S., Manjunath B.G. A Course in Statistics with R. Wiley, 2016. — 768 p. 13. A.B. Shipunov, E.M. Baldin, P.A. Volkova, A.I. Korobeinikov, S.A.Nazarova, S.V. Petrov, V.G. Sufiyanov. Naglyadnaya statistika. Ispol'zuem R!--M.: DMK Press, 2012.--298 s. 14. Kabakov R. R v deistvii. Analiz i vizualizatsiya dannykh na yazyke R. M., DMK-Press, 2014. — 588 s. 15. Mastitskii S.E., Shitikov V.K. Statisticheskii analiz i vizualizatsiya dannykh s pomoshch'yu R. 2014. – Elektronnaya kniga, adres dostupa: http://r-analytics.blogspot.com 16. Zaryadov I.S. Vvedenie v statisticheskii paket R: tipy peremennykh, struktury dannykh, chtenie i zapis' informatsii, grafika. M.: Izd-vo RUDNB, 2010.-207 s. 17. Uikem Kh., Groulmund G. Yazyk R v zadachakh nauki o dannykh: import, podgotovka, obrabotka, vizualizatsiya i modelirovanie dannykh — M., izd-vo Vil'yams, 2018. — 592 s. 18. Shitikov V. K., Mastitskii S. E. Klassifikatsiya, regressiya, algoritmy Data Mining s ispol'zovaniem R. 2017.-Elektronnaya kniga, adres dostupa: http://www.ievbras.ru/ecostat/Kiril/R/DM/DM_R.pdf |