Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Cybernetics and programming
Reference:

Detection methods for web resources automated data collection

Menshchikov Alexander Alexeevich

graduate student, Saint Petersburg State University of Information Technologies

197101, Russia, Sankt-Peterburg, g. Saint Petersburg, Kronverkskii Prospekt, 49

menshikov@corp.ifmo.ru
Other publications by this author
 

 
Gatchin Yurii

Doctor of Technical Science

Professor, Saint Petersburg State University of Information Technologies

197101, Russia, Sankt-Peterburg, Kronverkskii Prospekt, 49

gatchin@mail.ifmo.ru
Other publications by this author
 

 

DOI:

10.7256/2306-4196.2015.5.16589

Received:

07-10-2015


Published:

27-11-2015


Abstract: The article deals with the problem of automated data collection from web-resources. The authors present a classification of detection methods taking into account modern approaches. The article shows an analysis of existing methods for detection and countering web robots. The authors study the possibilities and limitations of combining methods. To date, there is no open system of web robots detection that would be suitable for use in real conditions. Therefore the development of an integrated system, that would include a variety of methods, techniques and approaches, is an urgent task. To solve this problem the authors developed a software product – prototype of such detection system. The system was tested on real data. The theoretical significance of this study is in the development of the current trend in the domestic segment, making a system of web robots detection based on the latest methods and the improvement of global best practices. Applied significance is in creation of a database for the development of demanded and promising software.


Keywords:

web-robots, information gathering, parsing, web robot detection, web security, information security, information protection, intrusion detection, intrusion prevention, weblogs analysis


Введение

На сегодняшний день наблюдается тенденция переносить важные ресурсы и услуги в интернет. Это касается банковской сферы, сферы образования, государственных услуг и т. д. Критическая информация, имеющая высокую ценность, персональные данные, все это теперь содержится в сети. Такие изменения помимо удобства и эффективности работы несут и угрозы. Веб-ресурсы становятся целью разного рода атак, а содержащаяся там информация коммерческого или конфиденциального характера нуждается в дополнительной защите [1-3]. Несанкционированный сбор такой информации ведется автоматизированными средствами. Веб-роботы – это специальные программы, осуществляющие автоматическое сканирование веб-ресурсов, сбор, обработку и анализ содержащейся там информации [4]. Веб-роботы используются как для законных целей, помогая анализировать контент и собирать индексную базу для поисковых систем, так и злоумышленниками, которые могут осуществлять сбор информации с целью последующей рассылки спама, фишинга, таргетированных атак. Веб-роботы зачастую используются для сбора информации, представляющей коммерческую ценность, содержащей персональные данные и иную информацию, которая может быть использована в конкурентной борьбе или для дальнейшей реализации. Данная информация расположена на ресурсах общего доступа, рассмотрение систем ограниченного доступа к информации или содержащих стеганографические методы [5, 21, 22] выходит за рамки данной статьи. Такие роботы не соблюдают правила поведения и пожелания администраторов ресурсов [6]. В погоне за актуальностью информации они увеличивают частоту запросов и агрессивность парсинга страниц веб-ресурса, что приводит к повышению нагрузок на сервера и проблемам доступности у обычных пользователей [7].

Актуальность

Угроза несанкционированного сбора информации с веб-ресурсов в настоящее время является актуальной. C каждым годом количество трафика, классифицированного как веб-парсинг, согласно исследованиям, значительно увеличивается [1]. Более 22% всех посещений классифицируются как автоматизированные, они генерируют в среднем 27% трафика [1, 3]. Причем, рост активности веб-роботов наблюдается уже пять лет подряд. Улучшаются методы и механизмы защиты веб-роботов от обнаружения, для этого используются ботнеты и взломанные компьютеры пользователей. Также, влияние оказывает широкое распостранение легких в использовании плагинов автоматизации сбора информации для браузеров. Наиболее популярными целями являются сайты продажи билетов, электронной коммерции, каталоги объявлений в сфере путешествий и недвижимости, а также социальные сети.

Обзор существующих решений

За последние несколько лет данная тематика активно разрабатывалась различными научными коллективами. Большинство исследователей изучают особенности поведения известных веб-роботов и приводят схемы обнаружения на основе анализа логов веб-серверов и отличия шаблонов поведения роботов от пользовательских [8]. Данная тематика включает в себя широкую совокупность различных вопросов, связанных с обнаружением и противодействием веб-парсерам. Рассматриваются вопросы создания классификаций веб-роботов [10-12], оптимизации их математических моделей [23], получения статистических данных поведения роботов , [4, 13, 14] и обычных пользователей [15] в зависимости от целей и задач, а также тематики веб-ресурса, который они посещают. Разрабатываются наборы метрик и шаблонов [16-18], которые позволяют выявлять роботов на основе анализа логов веб-сервера [19], а также трафика, проходящего через целевой узел [20]. Решаются вопросы классификации методов противодействия веб-парсингу [4, 14]. Также с тематикой связаны вопросы разработки самих веб-роботов [20], их оптимизации, увеличения эффективности сбора информации с целевого ресурса [14].

Классификация веб-роботов

Используемые злоумышленниками средства можно классифицировать по уровню сложности реализации [1]:

1. Любительский.

Средства автоматизации не обладают достаточными механизмами противодействия обнаружению. Используется ограниченное количество IP адресов, не происходит распределения ресурсов, а сбор информации, как правило, осуществляется прямым перебором страниц.

2. Профессиональный.

Средства автоматизации содержат механизмы противодействия обнаружению. Они периодически меняют IP адреса, модели поведения и имитируют действия пользователей. Данный тип роботов является наиболее распостраненным (75%) [1].

3. Передовой.

Данные средства автоматизации содержат самые передовые методы противодействия обнаружению. Они настраиваются под каждый веб-ресурс целевым образом и используют практически неограниченные ресурсы. Поведение таких роботов неотличимо от обычных пользователей.

Выбор того или иного метода обуславливается соотношением ценности информации, стоимости использования средств автоматизированного сбора данных, а также стойкостью механизмов защиты веб-ресурса к парсингу.

Классификация методов обнаружения

Методы обнаружения веб-парсеров можно разделить на четыре основных категории согласно используемым подходам:

1. Синтаксический анализ логов

Данный метод представляет из себя простейшую обработку логов веб-сервера. Она включает в себя такие метрики как: выявление нестандартных HTTP заголовков (например User-Agent: Googlebot) или фильтрацию по IP адресам, которые принадлежат другим странам или определенным организациям. Главным преимуществом данного метода является простота реализации и скорость обработки данных. Недостаток – выявление только известных роботов. Данный метод применим только для обнаружения любительских парсеров.

2. Сигнатурный анализ трафика

Данный метод основывается на поиске определенных характеристик присущих роботизированным системам в отличие от пользователя-человека. Например, использование массового перебора страниц однотипной вложенности, слишком высокая скорость запросов, загрузка только html страницы без подгрузки скриптов и CSS файлов. Данный метод использует отклонение в значениях метрик, основываясь на типовом поведении пользователей, в отличии от предыдущего метода, который ищет конкретные шаблоны в логах. Преимуществом такого метода является большее покрытие, минусом – необходимость настройки чувствительности по каждой метрике.

3. Анализ трафика на основе машинного обучения.

Данный метод основывается на статистическом анализе трафика с целью обнаружения парсеров. Обычно используются метрики подобные тем, которые характерны для сигнатурного анализа. Преимуществом данного метода является обнаружение даже ранее неизвестных парсеров, минусом – необходимость обучения данной системы для достижения требуемой точности обнаружения и исключения ложных срабатываний, что может быть весьма затруднительно в ручном режиме. Существуют также более продвинутые вариации поведенческого анализа, базирующиеся на анализе дерева путей по сайту, связей сессий посещения и некоторых других.

4. Ловушки

К данным методам относятся чисто технические способы отличить пользователя-человека от робота. Такие как использование тестов Тьюринга, специальных обфусцированных JavaScript функций, невидимых ссылок, являющихся детекторами роботов, Flash аплетов и некоторых других [11].

Методы противодействия средствам автоматизированного сбора информации на веб-ресурсах также можно подразделить на активные и отложенные. К активным относятся различные ловушки и усеченные варианты анализаторов логов. Данные методы выполняются быстро и могут использоваться для моментального блокирования роботизированного трафика. Более сложные методы обычно выполняются в офлайн режиме, анализируя логи постфактум и вырабатывая на их основе правила, по которым впоследствии можно будет блокировать роботов (например, выделяя их IP адреса).

Результаты

Предлагаемая система обнаружения и противодействия веб-парсерам основана на синтезе различных методов. В активном режиме работают правила и фильтры на базе синтаксического анализа логов и сигнатурного анализа трафика. Данные правила формируются на основе результатов отложенного анализа трафика с использованием машинного обучения и анализа деревьев путей по сайту, однако, стоит отметить, что для этого необходимы использовать тренировочный набор из трафика реального веб-ресурса. На основе анализа методов был сформирован следующий набор метрик для сигнатурного анализа: Определенные версии браузеров, IP адреса, нестандартные рефереры, частота запросов, соотношение типов запрашиваемых данных, число ошибок.

Прототип системы тестировался на пробном наборе логов веб-сервера, содержащих 200000 записей запросов, в наборе присутствовали 39635 источников трафика.

В наборах были зафиксированы 5347 различных версий веб-браузеров. Для каждой версии были подсчитаны ее частота встречаемости в логах и среди IP адресов. По данной метрике 385 веб-браузеров были помечены как «подозрительные». Например, «AOLserver-Tcl/3.3.1+ad13», который встречается в логах 1862 раз с одного IP адреса или «PHP/4.2.1», который означает, что запрос пришел от программы, написанной на языке PHP, а не с веб-браузера.

Была сформирована таблица частот запросов от разных IP адресов. Она позволила пометить 20 IP адресов как роботов, у которых частоты запросов резко отличались от средних.

Для каждого IP адреса была сгенерирована таблица частот использования разных форматов файлов, что позволило отделить 10 IP адресов как роботизированные т.к. они загружали только сами страницы, игнорируя мультимедиа контент.

Была сформирована таблица всех рефереров, но пока она не позволила сделать никаких фактических заключений о принадлежности трафика к автоматизированному, кроме фильтрации одного IP адреса с реферером на сайт веб-краулинга.

Была сформирована таблица частот ошибок для каждого источника, что позволило пометить еще 5 адресов как веб-парсеры т.к. они запрашивали страницы, ссылок на которые не существует т. е. осуществляли перебор.

Была построена таблица частот запросов для каждого источника, запросы были разделены на сеансы, и для каждого сеанса посчитано среднеквадратическое отклонение периодов между посещениями. Затем были выделены резко отклоняющиеся значения. Это позволило выделить 41 подозрительный источник, которые включают в себя большую часть, обнаруженных предыдущими методами.

Выводы

В результате можно сделать вывод, что данные метрики способны выделить автоматизированный трафик из логов веб-сервера. Было найдено несколько десятков источников веб-парсеров, которые, впрочем, принадлежали в основном SEO-системам и поисковикам. На данный момент разработана классификация и проведена систематизация основных методов обнаружения веб-парсеров. Создан прототип архитектуры системы автоматизированного обнаружения и противодействия несанкционированному сбору информации с веб-ресурса с использованием выбранных метрик анализа поведения веб-роботов на основе синтеза изучаемых методов. Прототип протестирован на тестовом наборе логов веб-серверов и показал приемлимые результаты обнаружения веб-парсеров, что позволяет использовать его в дальнейшем для формирования тренировочных наборов с целью обучения сканеров и формирования статистики. В дальнейшем планируется создание полноценной системы обнаружения веб-роботов с использованием машинного обучения. Остро стоит проблема создания репрезентативных тренировочных наборов, созданию которых поспособствовала данная работа.

References
1.  Otchet kompanii scrapesentry [Elektronnyi recurs]. – Rezhim dostupa: https://www.scrapesentry.com/scrapesentry-scraping-threat-report-2015/, svobodnyi (data obrashcheniya: 08.10.2015).
2. I. A. Adegbola, R. G. Jimoh Spambot Detection: A Review of Techniques and Trends // International Journal of Applied Information Systems. – 2014. – V. 6(9).
3.  Otchet kompanii distil networks [Elektronnyi recurs]. – Rezhim dostupa: http://resources.distilnetworks.com/h/i/81324486-2015-bad-bot-landscape-report/185088/, svobodnyi (data obrashcheniya: 08.10.2015).
4.  MC. Calzarossa, L. Massari, D. Tessera An extensive study of Web robots traffic // Proceedings of International Conference on Information Integration and Web-based Applications & Services. – 2013.
5. Menshchikov A. A., Shniperov A. N. Metod skrytogo vstraivaniya informatsii v vektornye izobrazheniya// Doklady TUSUR . 2015. №1 (35). S.100-106.
6.  Robots Exclusion Protocol Guide [Elektronnyi recurs]. – Rezhim dostupa: http://www.bruceclay.com/seo/robots-exclusion-guide.pdf, svobodnyi (data obrashcheniya: 08.10.2015).
7.  V. Almeida, D. A. Menasce, R. Riedi, F. P. Ribeiro, R. Fonseca, W. Meira, Jr. Analyzing Web robots and their impact on caching // Proc. Sixth Workshop on Web Caching and Content Distribution. – 2001. – P. 299–310.
8.  D. Derek, S. Gokhale Web robot detection techniques: overview and limitations // Data Mining and Knowledge Discovery. – 2011. – V. 22(1). – P. 183–210.
9.  T. Pang-Ning, K. Vipin Discovery of Web Robot Sessions Based On their Navigational Patterns // Data Mining and Knowledge Discovery. – 2002. – V. 6(1). – P. 9–35.
10.  D. Derek, S. Gokhale A Classification Framework for Web Robots // Journal of American Society of Information Science and Technology. – 2012. – V. 63. – P. 2549–2554.
11.  D. Derek, S. Gokhale Discovering New Trends in Web Robot Traffic Through Functional Classification // Proc. IEEE International Symposium on Network Computing and Applications. – 2008. – P. 275–278.
12.  J. Lee, S. Cha, D. Lee, H. Lee Classification of web robots: An empirical study based on over one billion requests // Computers and security. – 2009. – V. 28. – P. 795–802.
13.  B. Quan, X. Gang, Z. Yong, H. Longtao Analysis and Detection of Bogus Behavior in Web Crawler Measurement // Procedia Computer Science. – 2014. – V. 31. – P. 1084–1091.
14.  D. Derek, S. Gokhale Detecting Web Robots Using Resource Request Patterns // Procceeding 11th International Conference on Machine Learning and Applications. – 2012. – V. 1. – P. 7–12.
15.  D. Derek, K. Morillo, S. Gokhale A comparison of Web robot and human requests // Advances in Social Networks Analysis and Mining. – 2013. – P.1374–1380.
16.  S. Kwon, YG. Kim, S. Cha Web robot detection based on pattern-matching technique // Journal of Information Science. – 2012. – V. 38(2). – P. 118–126.
17.  G. Jacob, E. Kirda, C. Kruegel, G. Vigna PUB CRAWL: Protecting Users and Businesses from CRAWLers // Proceeding Security'12 Proceedings of the 21st USENIX conference on Security symposium. – 2012. – P. 25–36.
18.  TH. Sardar, Z. Ansari Detection and Confirmation of Web Robot Requests for Cleaning the Voluminous Web Log Data // Proceeding International Conference on the IMpact of E-Technology on US. – 2014. – V. 28. – P. 795–802.
19.  DS. Sisodia, S. Verma, OP. Vyas Agglomerative Approach for Identification and Elimination of Web Robots from Web Server Logs to Extract Knowledge about Actual Visitors // Journal of Data Analysis and Information Processing. – 2015. – V. 3. – P. 1–10.
20.  BT. Loo, O. Cooper, S. Krishnamurthy Distributed Web Crawling over DHTs // University of California, Berkeley Department of Electrical Engineering and Computer Sciences. – 2004.
21. Gatchin Yu.A. Teoriya informatsionnoi bezopasnosti i metodologiya zashchity informatsii/Yu.A. Gatchin, V.V. Sukhostat.-SPb.: SPbGU ITMO, 2010.-98 s.
22. Korobeinikov A.G., Kutuzov I.M., Kolesnikov P.Yu. Analiz metodov obfuskatsii // Kibernetika i programmirovanie.-2012.-1.-C. 31-37. URL: http://www.e-notabene.ru/kp/article_13858.html
23. Korobeinikov A.G., Grishentsev A.Yu. Uvelichenie skorosti skhodimosti metoda konechnykh raznostei na osnove ispol'zovaniya promezhutochnogo resheniya // Kibernetika i programmirovanie.-2012.-2.-C. 38-46. URL: http://www.e-notabene.ru/kp/article_13864.htm