The specifics of working with “big data” in modern media

Неренц Д.В.

doi:10.7256/2454-0749.2021.4.35354

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

Back to contents

Philology: scientific researches

Reference:

Nerents, D.V. (2021). The specifics of working with “big data” in modern media . Philology: scientific researches, 4, 28–37. . https://doi.org/10.7256/2454-0749.2021.4.35354

The specifics of working with “big data” in modern media

Nerents Dar'ya Valer'evna

PhD in Philology

Docent, the department of Journalism, Russian State University for the Humanities

125993, Russia, Moskovskaya oblast', g. Moscow, Miusskaya ploshchad', 6, aud. 525

ya.newlevel@yandex.ru

Other publications by this author

DOI:

10.7256/2454-0749.2021.4.35354

Received:

27-03-2021

Published:

07-05-2021

Abstract: As of today, Big Data is the source of information that journalists can no longer neglect. Data sets, databases, unstructured data on the official websites of the government or commercial institutions are a resource for the work of journalists. Big Data is not only the source of information, but also the evidence base. Using quantitative and statistical indicators as the arguments for their theses, the journalists increases the level of audience loyalty and trust to the publication. Data analysis, establishment of correlations, making forecasts and ratings allows creative exclusive, attractive and reliable content that attracts the audience and improves reputation of the publisher. This article is dedicated to determination of the role of “big data” in the work of information and analytical departments of the publisher, as well as in coverage of the socially relevant topics and outlining trends in further work of the journalists with such information. Over the study period (from 2017 to the present) the author employed the methods of description, comparative analysis, and generalization. In conclusion, the author notes that the collection and processing of the data requires a strong approach and utmost attention of the journalists.

Keywords:

Big Data, data journalism, databases, massmedia, social networks, fact-checking, visualization, research, digitalization, verification

Современное медиапространство любой страны тесно связано с процессами цифровизации, дигитализации, конвергенции, которые в совокупности представляют собой единую тенденцию – переводить все существующие данные в электронный формат, доступный в том числе в режиме онлайн. Подобное явление приводит к экспоненциальному росту доступных любому пользователю данных. И теперь все чаще в рамках журналистской работы происходит обращение к «большим данным» как к источнику информации.

Очевидным является причинно-следственная связь, в рамках которой постоянное увеличение оцифрованной информации обо всех сферах жизнедеятельности и активное обращение все большего количества людей к социальным сетям приводит к увеличению уже и без того значительного количества информации практически о чем угодно.

В период, когда пользователи по личной инициативе охотно делятся персональными данными с аудиторией (делая отметки своей геолокации, ежедневно публикуя фотографии дома, на улице, на месте работы/учебы, открывая доступ к комментариям всем желающим, регулярно делясь своими мыслями, чувствами, событиями жизни посредством постов), журналисты имеют неограниченные возможности относительно поиска тем или важной информации для подтверждения своих тезисов. Журналист и медиаисследователь Эм Кунтце отмечает, что «мир больших данных избавляет журналистов от необходимости выдвигать гипотезы – не надо строить теории и искать данные для доказательств. Все наоборот» ^[18]. Другими словами, теперь журналист получает огромное количество данных (уже подтвержденных фактов) и ищет в них тему для своего материала.

Подходы к определению понятия «большие данные»

На современном этапе целый ряд отечественных и зарубежных исследователей изучают вопрос применения «больших данных» в журналистике. В основу теоретической базы данного исследования легли труды «Мультимедийная журналистика» под ред. А.Г. Качкаевой ^[10], С. Льюса и О. Вестланда «Большие данные и журналистика: эпистемология, экспертиза, экономика и этика» ^[19], В. Майер-Шонбергер и К. Кукира «Большие данные: революция, которая изменила наш образ жизни, принципы работы и мышление» ^[20], М. А. Рожковой «Что такое большие данные (big data), чем они отличаются от обычных данных и в чем состоит проблема правового регулирования big data» ^[12], А. А. Гусевой «Большие данные»: понятие, источники, возможности ^[5], А. Де Мауро, М. Греко и М. Гримальди «Формальное определение понятия «Большие данные», основанное на ключевых характеристиках» ^[16], К. Кукира и В. Майер-Шонбергер «Расцвет больших данных» ^[13], Ф. Мейера «Прецизионная журналистика: руководство для журналиста по использованию научных социологических методов» ^[21].

Сам термин «большие данные» или Big Data является уже устоявшимся понятием в научной среде, однако суть этого термина специалисты в разных областях трактуют по-разному. По большому счету основной проблемой является граница между просто данными и «большими данными». Для специалистов IT-сектора это зетабайты и даже петабайты, то есть объем, который предполагает работу с облачными хранилищами, поскольку сохранение их на жесткий диск компьютера не представляется возможным. Между тем, журналистские публикации, основанные на анализе данных, и называемые в профессиональных сообществах проекты «журналистики данных» или дата-проекты, как правило, демонстрируют аудитории анализ данных, объемом в несколько гигабайт, который в данной среде причисляется к категории «больших данных». Это подтверждает авторский анализ публикаций, попавших в шорт-лист международных премий Data Journalism Awards (2012-2019 гг.) и The Sigma Awards (2020 г.) Таким образом, можно отметить, что представление о «больших данных» у представителей разных профессий может отличаться и трактоваться по-своему.

Если говорить о конкретных определениях, то можно описать Big Data как любой набор данных, который имеет настолько большой объем, что с ним трудно работать традиционным информационным системам ^{[10, c. 78]}. Еще один подход к определению заключается в акцентировании внимания на некий комплексный набор методов и технологий, которые преобразуют исходные данные в полезную информацию для различных целей ^[2]. Еще одно определение основано на объеме таких сведений: «понятие Big Data описывают как данные объема в порядках терабайт… такие данные легко хранить и управлять ими с помощью «традиционных» баз данных и стандартного оборудования (сервера баз данных)» ^[11]. Так можно отметить, что «большие данные» представляют собой набор данных, который невозможно проанализировать и обработать вручную. Другими словами, необходимо использование специальных компьютерных программ, облачных хранилищ или применение языков программирования.

В декабрьском номере журнала «Русский репортер» 2019 года «большие данные» стоят наряду с такими понятиями как «социальные сети», «нейросети», «смартфон» и «криптовалюты» и отнесены к словам, определившим технологический облик времени эпохи 2010-х годов ^{[7, c. 47]}. В частности, автор материала отмечает, что главным направлением развития стало не наращивание мощностей, а анализ данных. «Все больше решений принимается с учетом или даже на основе анализа Big Data, больших данных. В десятые их называют новой нефтью, ведь из анализа информации извлекаются не только знания, но и огромные прибыли. В десятке самых дорогих компаний мира – впервые в истории – сплошь информационные гиганты вроде «Гугла» с Фейсбуком»» ^{[7, c. 47]}.

«Большие данные» стали общедоступны благодаря повсеместному распространению мобильных устройств, передатчиков, цифровых репозиториев, переведенных в электронный вид архивов, активному развитию социальных сетей и интерактивных инструментов. «Огромный объем цифровых данных и их безграничный рост ошеломляют… и столь же значительным является растущая легкость, с которой стандартное компьютерное программное обеспечение может управлять наборами данных, которые когда-то требовали суперкомпьютеров, и манипулировать ими, увеличивая тем самым эпизод исследования цифровых данных» ^{[19, p. 449]}.

Так к «большим данным» можно отнести открытые данные в Интернете, базы данных, оцифрованные архивные материалы, результаты в поисковых системах, даже данные в социальных сетях. Этот источник информации позволяет составить детальную картину нынешней обстановки в городе, регионе, стране и даже в мире. Статистические сведения, числовые показатели, оформленные в виде яркого и простого графика или схемы, позволяют, с одной стороны, отразить серьезность проблемы, с другой стороны, привлечь внимание аудитории за счет доступной формы подачи информации.

Типология BigData в журналистской практике

Сотрудник Института Рейтер М. Стоун в своем исследовании «Данные для медиа» отмечает важные свойства «больших данных», так называемые 4Vs: объем данных (volume), скорость передачи данных (velocity), разнообразие структурированных и неструктурированных данных (variety) и потенциальную ценность с точки зрения бизнеса и получения дохода (value) ^[22]. Эти же свойства выделяет С. А. Вартанов, отмечая при этом, что «Big data – это разнородные неструктурированные данные крайне большого объема, увеличение которого происходит ежедневно с большой скоростью» ^[4].

В рамках журналистской работы «большие данные» используются в качестве источника информации для разнообразного контента: начиная от новостных заметок и заканчивая масштабными расследованиями. В связи с этим, можно типологизировать «большие данные» на пять основных категорий (виды данных, к которым обращаются журналисты в рамках своей профессиональной деятельности чаще всего): базы данных, социальные сети, видеозаписи, фотоизображения и научные исследования.

Самым распространенным и наиболее востребованным видом «больших данных» являются базы данных, которые можно разделить на открытые/частично открытые и закрытые, а также на платные и бесплатные. Кроме ресурсов с данными от некоммерческих организаций, фондов, благотворительных центров и отдельных энтузиастов, есть некоммерческие расследовательские организации, которые создают свои базы данных по результатам проведенных расследований. Так у «Международного консорциума журналистов-расследователей» (ICIJ) есть база данных, посвященная архивным данным по документам, составляющим «Панамские архивы» и «Архивы Райских островов». База данных поделена на рубрики: Offshore Leaks, Panama Papers, Bahamas Leaks и Paradise Papers ^[14]. На сайте также представлена масштабная база данных «Международная база данных медицинского оборудования» ^[17], в которой содержится более 120 000 напоминаний, предупреждений по технике безопасности и эксплуатации медицинских изделий и их связи с производителями.

Еще один некоммерческий центр, на протяжении нескольких лет регулярно публикующий собственные базы данных – ProPublica ^[15]. Их данные поделены на несколько рубрик (здравоохранение, политика, бизнес, правосудие, финансы, религия, транспорт, военная промышленность, образование, экология) и классифицируются как премиум-базы (платные) и обычные (бесплатные). Для доступа к базе необходимо заполнить небольшую регистрационную форму. В 2020 году на сайте предлагалось 104 набора данных по самым различным сферам жизнедеятельности, при этом 67 наборов данных, то есть большинство, можно получить бесплатно. Премиальные данные являются уже обработанными и эксклюзивными сведениями, которые журналисты получили с помощью запросов или вычислительных манипуляций. Бесплатные базы часто содержат необработанные, неструктурированные данные, которые журналисты брали за основу своих исследований и проводили дальнейшие операции с ними уже в рамках своей публикации.

Наряду с базами данных социальные сети также представляют собой неограниченный источник информации практически о любом человеке. Постоянные отметки геолокаций пользователей, непрерывная публикация фотоизображений, на которых отчетливо видны места посещения человека, круг друзей и знакомых, родственников, посты с публикациями мыслей, знаний, рассуждений человека и т.д. В рамках «больших данных» можно говорить об анализе твитов, постов, фотографий, результат которого демонстрируется в совокупности, без акцентирования внимания на конкретных персоналиях или личных аккаунтах.

Помимо многочисленных баз данных и персональной информации из социальных сетей, еще одним вариантом «больших данных» являются многочисленные записи с камер видеонаблюдения. Они установлены практически во всех общественных местах: офисах, общественном транспорте, магазинах, салонах красоты, торговых центрах, на городских улицах и на приборных панелях автомобилей. «Так, в 2011 году общее количество камер видеонаблюдения в Великобритании оценивалось в два миллиона единиц – по одной на каждые тридцать жителей страны. Если эта пропорция верна для всего остального мира, мы получаем цифру примерно в 100 миллионов камер круглосуточного наблюдения, установленных в общественных местах. Впрочем, это всего лишь десятая часть миллиарда камер в смартфонах» ^{[3, c. 162]}. На сегодняшний день в Москве (данные на январь 2021 г.) насчитывается более 204 000 камер видеонаблюдения по всему городу, более 102 900 камер на подъездах, более 21 000 на придворовых территориях, более 6 000 камер установлено в местах массового скопления граждан ^[6].

Фотоизображения могут представлять собой «большие данные» при использовании фотогалерей, фотобанков, фотоархивов, то есть сбор и систематизация разрозненных файлов с целью выявления каких-то взаимосвязей или тенденций. Сегодня более 2,5 триллиона изображений ежегодно публикуются или хранятся в Интернете.

Научные исследования в категории «больших данных» выступают для журналистов отправной точкой для собственных исследований или расследований.

В целом, использование в материале «больших данных» предоставляет аудитории, прежде всего, возможность увидеть «картину» целиком, не обрывочные сведения или только главные факты, а именно всю информацию с мельчайшими деталями. Так аудитория имеет возможность изучить проблему не на основе того, что выбрал журналист для демонстрации своим читателям или зрителям, а на основе всех сведений, которые удалось получить.

Примеры использования «больших данных» в российских СМИ

По аналогии с американской и европейской журналистской практикой российские журналисты также относят материалы, основанные на анализе «больших данных», к дата-проектам. Дата-журналистика на сегодняшний день является весьма специфическим направлением, поскольку требует от журналистов компетенций и навыков, которыми большинство представителей профессии не обладает. В частности, необходимы умения работы с определенным программным обеспечением, то есть овладение компетенциями IT-специалиста (для сбора и систематизации данных) и графического дизайнера (для создания визуализации).

Сегодня публикации, основанные на анализе данных, можно увидеть не только в федеральных изданиях («Новая газета», «Медиазона», РБК, «Важные истории»), но и в региональных СМИ («Четвертый сектор», «Проект.»). Отличаются такие материалы тематикой и масштабом исследуемой проблемы, но не методологией, которая у всех журналистов примерно одинакова. Например, исследование Ю. Апухтиной «Поликлиническая смерть» для издания «Проект.» ^[1] было основано на изучении финансовых отчетов больниц, документах территориальных фондов ОМС, постановления правительства России о выделении средств на борьбу с коронавирусом, данных о субсидиях министерства здравоохранения РФ в адрес регионов. В частности, автор скачивала и проводила системный анализ отчетов о финансовых результатах деятельности учреждений и отчетов об исполнении учреждением плана его финансово-хозяйственной деятельности с сайта bus.gov.ru; для оценивания доли платных услуг в доходах государственных медицинских организаций в регионах России были посчитаны отношение их собственного дохода к доходу от субсидий на госзадание и от средств ОМС; для оценки доли финансирования амбулаторной, специализированной и других видов медицинской помощи в структуре дохода медицинских организаций от ОМС были исследованы федеральная и территориальные программы ОМС 85 субъектов РФ, тарифные соглашения к этим программам и бюджет федерального фонда ОМС. Таким образом, можно отметить системный подход к анализу данных, который проявляется не только в четком логичном структурировании полученных сведений, но и в последовательном и подробном описании полученных результатов.

Если обратиться к методологии авторов материала «С апреля в коронавирусных больницах умерло не меньше 74,9 тысяч человек. Как регионы скрывают эти данные: расследование «Медиазоны»», опубликованного в издании «Медиазона», то можно увидеть аналогичную работу с официальной статистикой. Журналисты получили доступ к закрытой базе данных ИЦК (Информационный центр по мониторингу ситуации с коронавирусом) за период 31 марта – 22 ноября 2020 года.

Помимо данных о смертности в архиве содержались данные о занятости коек и количестве людей, подключенных к ИВЛ, в каждом регионе. Журналисты сравнили все данные представленной им анонимом базы с официальными данными оперштабов в регионах. В результате, получили подтверждение, что в некоторых регионах официальные данные о смертности занижены, а где-то данные публикуют с сильной задержкой или не публикуют вовсе, хотя в базе ИЦК они присутствуют. Таким образом, можно отметить, что журналисты получили официальные данные и после их перепроверки проводили сравнительный анализ официальной и «реальной» статистики, результат которого был представлен в формате лонгрида с многочисленной инфографикой.

Подводя итог, можно отметить, что при работе с «большими данными» важным является первоисточник этих данных: если данные опубликованы официально, то их перепроверка не требуется, в случае сомнительного источника необходим фактчекинг, который отнимает значительное количество времени, поскольку требует поиска альтернативного подтверждения этих показателей. Однако в обоих случаях очевидно, что данные являются основным источником информации, который позволяет получить достоверную и исчерпывающую информацию по теме.

Проблемы работы с данными

Все проблемы, касающиеся работы с данными, можно разделить на две группы: объективные (технические) и субъективные (зависящие от человеческого фактора).

В качестве субъективных проблем, которые связаны с работой источника, стоит отметить, прежде всего, отсутствующие в таблице значения, что может означать, что их или нет, или они специально убраны из документа; ошибки, связанные с копированием строк, когда вместо нового значения, копируется предыдущее; орфографические ошибки; непоследовательность дат, когда смешиваются американская и европейская системы; несогласованный порядок имен; отсутствие указания единиц измерения; двусмысленность в названии категорий; отсутствие указания на происхождение базы данных; присутствие «подозрительных» значений (например, среди показателей 123,9 и 385,6 появляется показатель 9000); невозможное для обработки количество строк и столбцов (таблицы с 43675 строк и 228 столбцами); измененный таймфрейм (данные начинаются и заканчиваются в определенной время, заданное автором, получается очень ограниченный период времени); манипуляции с системой подсчета (как правило, используется в политических целях) и др.

Среди проблем, которые должны относятся к техническим, стоит выделить: искажение текста (все буквы представлены в виде чисел); искажение окончания строк (возникает при работе в разных операционных системах); данные в формате PDF (одна из самых часто встречающихся проблем – созданные в этом формате или отсканированные документы); слишком детализированные данные (месяцы вместо лет или города вместо округов, областей); неслучайная выборка; большая погрешность в значениях.

Важной проблемой является и проверка достоверности данных, оценка их репрезентативности. Например, социологические опросы позволяют увидеть не фактические показатели, а субъективные представления людей о той или иной проблеме. При работе с такими данными необходимо четко знать, в каких категориях измеряются те или иные показатели. При сборе данных используются разные методологии, и, если в материале она не указана, возникает вопрос о качестве представленных результатов.

Отсутствие ссылки на первоисточник данных, если журналист работает со вторичными источниками, также зачастую не позволяет подтвердить представленную информацию. Например, в материале газеты «Ведомости» «Каждый третий россиянин считает себя бедным» ^[8], который основывается на исследовании ФОМ, не представлена гиперссылка на само исследование, также не указана методология изучения проблемы. Помимо исследования ФОМ, в данном тексте также представлены результаты опроса ВЦИОМ, на которые тоже нет гиперссылок: «По данным последнего опроса ВЦИОМа, более трети россиян (38%) могут позволить себе купить только продукты и одежду». При этом отсутствуют и указание на временные рамки проводимого опроса.

В связи с указанными проблемами, на первое место после систематизации полученных данных, выходит их верификация. Помимо собственных наблюдений и различных технологий проверок данных, в качестве дополнительного фактчекинга следует обращаться к первоисточнику (создателю данных), предпринимать попытку поиска аналогичных данных в альтернативном источнике, проверить файл на наличие скрытых данных, перепроверить «сомнительные» данные, не пренебрегать консультациями специалистов. Не менее значимым является и техническая «подкованность», позволяющая решить проблемы, связанные с переформатированием или искажением данных.

Заключение

Проведенное исследование позволяет отметить, что работа по сбору и обработке данных требует от журналиста серьезного подхода и крайней внимательности, поскольку необходимо всегда иметь ввиду, точны ли предоставленные данные, отражают ли полученные данные объективные результаты, достаточно ли найдено данных для подтверждения/опровержения авторских тезисов, актуальны ли данные, нет ли более новых сведений по исследуемому вопросу, есть ли альтернативные источники подобных данных и совпадают ли они с найденными имеющимися данными, насколько квалифицированным и заслуживающим доверия является источник данных (кто является создателем базы), зачем и когда были собраны данные, имеются ли ограничения в доступе к полной базе данных, использовались ли данные другими журналистами и каковы были результаты.

В целом, роль «больших данных» в журналистике сегодня трудно переоценить. Прежде всего, это важный источник для поиска тем, которые в таком массиве информации могли остаться незамеченными, это возможность выявления и доказательства злоупотреблений, нарушения закона, совершения преступления. Кроме того, Big Data является не только источником информации, но и доказательной базой. Используя в качестве аргументов для своих тезисов количественные, статистические показатели, журналист повышает уровень лояльности аудитории, степень доверия к публикации. Анализ данных, выявление взаимосвязей, корреляций, составление прогнозов, рейтингов позволяет создать эксклюзивный привлекательный и достоверный контент, привлекающий аудиторию и способствующий улучшению репутации издания.

References

1. Apukhtina, Yu. Poliklinicheskaya smert' [Elektronnyi resurs] // Proekt. – 2020. – 27 maya. – Rezhim dostupa: https://www.proekt.media/research/koronavirus-zarplaty-vrachey (data obrashcheniya: 25.12.2020).
2. Biznes-analitika i bol'shie dannye v Rossii 2016 [Elektronnyi resurs] // CNews. – 2016. – 30 iyulya. – Rezhim dostupa: https://www.cnews.ru/reviews/bi_bigdata_2016 (data obrashcheniya: 27.01.2021).
3. Vaigend, A. Big Data. Vsya tekhnologiya v odnoi knige [Tekst] / Andreas Vaigend. – M.: Bombora, 2018. – 384 s.
4. Vartanov, S. A. Bol'shie dannye v onlain-SMI: podkhody i strategii ispol'zovaniya [Elektronnyi resurs] // Mediaskop. – 2017. – № 4. – Rezhim dostupa: http://www.mediascope.ru/2375 (data obrashcheniya: 20.01.2021).
5. Guseva, A. A. «Bol'shie dannye»: ponyatie, istochniki, vozmozhnosti [Tekst] // Master’s Journal. – Perm': Permskii natsional'nyi issledovatel'skii politekhnicheskii universitet. – 2016. – № 1. – S. 320-324.
6. Informatsionnye tekhnologii. Gorodskaya sistema videonablyudeniya // Ofitsial'nyi portal Pravitel'stva Moskvy [Elektronnyi resurs]. – Rezhim dostupa: https://video.dit.mos.ru/ (data obrashcheniya: 27.01.2021).
7. Konstantinov, A. 20 yavlenii epokhi 2010-kh [Tekst] // Russkii reporter. – 2019. – Dek.-yanv. – № 23. – S. 46-48.
8. Koshkina, A. Kazhdyi tretii rossiyanin schitaet sebya bednym [Elektronnyi resurs] // Vedomosti. – 2020. – 14 dek. – Rezhim dostupa: https://www.vedomosti.ru/economics/articles/2020/12/14/850937-tretii-bednim (data obrashcheniya: 26.01.2021).
9. Mitrovich, S. Rynok «bol'shikh dannykh» i ikh instrumentov: tendentsii i perspektivy v Rossii [Tekst] // MIR (Modernizatsii. Innovatsii. Razvitie). – 2018. – T. 9. – № 1. – S. 74-85.
10. Mul'timediinaya zhurnalistika [Tekst] / pod obshch. red. A. G. Kachkaevoi, S. A. Shomovoi. – M.: Izd. dom Vysshei shkoly ekonomiki, 2017. – 413 s.
11. Revolyutsiya Big Data: Kak izvlech' neobkhodimuyu informatsiyu iz «Bol'shikh Dannykh»? [Elektronnyi resurs] // Statsoft. – Rezhim dostupa: http://statsoft.ru/products/Enterprise/big-data.php (data obrashcheniya: 16.01.2021).
12. Rozhkova, M. A. Chto takoe bol'shie dannye (big data), chem oni otlichayutsya ot obychnykh dannykh i v chem sostoit problema pravovogo regulirovaniya big data [Elektronnyi resurs] // Zakon.ru. – Rezhim dostupa: https://zakon.ru/blog/2019/04/22/chto_takoe_bolshie_dannye_big_data_chem_oni_otlichayutsya_ot_obychnyh_dannyh_i_v_chem_sostoit_proble (data obrashcheniya: 04.06.2019).
13. Cukier, K., Mayer-Schoenberger, V. The Rise of Big Data [Elektronnyi resurs] // Foreign Affairs. – 2013. – № 92. – Available at: https://www.foreignaffairs.com/articles/2013-04-03/rise-big-data (accessed 07.06.2019).
14. Data journalism, interactives, digital storytelling [Elektronnyi resurs] // The International Consortium of Investigative Journalists. – Available at: https://www.icij.org/data/ (accessed 20.02.2018).
15. Data Store [Elektronnyi resurs] // ProPublica. – Available at: https://www.propublica.org/datastore (accessed 16.01.2021).
16. De Mauro, A., Greco, M., Grimaldi, M. A formal definition of Big Data based on its essential features [Tekst] // Library Review. – 2015. – № 65. – Rr.122-135.
17. International Medical Devices Database [Elektronnyi resurs] // The International Consortium of Investigative Journalists. – Available at: https://www.icij.org/data, (accessed 07.03.2020).
18. Kuntze, E. How are big data technologies impacting journalism? [Elektronnyi resurs] // What’s New In Publishing. – Available at: https://whatsnewinpublishing.com/2019/05/how-are-big-data-technologies-impacting-journalism/ (accessed 17.01.2021).
19. Lewis, S., Westlund, O. Big Data and Journalism: epistemology, expertise, economics, and ethics [Tekst] // Digital Journalism. – Taylor & Francis, 2014. – Pp. 447-466.
20. Mayer-Schonberger, V., Cukier, K. Big Data: A Revolution that Will Transform How We Live, Work, and Think [Tekst]. – Boston, MA: Houghton Mifflin Harcourt, 2013. – 1249 r.
21. Meyer, P. Precision Journalism: A Reporter’s Introduction to Social Science Methods [Tekst]. Fourth edition. – Lanham: Rowman & Littlefield Publishers, 2002. – 263 p.
22. Stone, M. Big Data for Media [Elektronnyi resurs] // Reuters Institute for the Study of Journalism. – 2014. – Nov. – Available at: https://reutersinstitute.politics.ox.ac.uk/sites/default/files/2017-04/Big%20Data%20For%20Media_0.pdf (accessed 25.01.2021).

Journals

Books

The specifics of working with “big data” in modern media