DOI: 10.7256/2454-0714.2019.2.28279
Received:
06-12-2018
Published:
18-07-2019
Abstract:
The subject of the research is data conversion algorithms for eliminating outliers in time series. The author considers data conversion algorithms based on arithmetic mean and median, as well as combined smoothing methods like 4253Н and 3RSSH. The author considers such aspects of the topic as changing the statistical characteristics of the time series when applying transformations, and also pays attention to the issues of visual presentation of data and changing the behavior of the series when introducing outliers into the time series. When writing the work, both theoretical and empirical research methods were used: the work and software systems that affect these issues were studied, and a series of experiments was conducted. Computational experiments on processing the time series have been carried out both without emissions and with emissions for smoothing. A comparison of the results of processing time series. A software tool is proposed that allows the use of various smoothing filters. The software tool has been tested for working with various characteristics of the input data.
Keywords:
time series transformation, transformation, filter, smoothing, smoothing by median, smoothing by average, outliers, information processing, 4253H filter, 3RSSH filter
В настоящее время аспектам обработки информации уделяется большое внимание, и обработка информации является одним из ведущих ориентиров не только в сфере информационных технологий, но и в других отраслях, поскольку информация используется во всех без исключения сферах человеческой деятельности. Качественный анализ информации позволяет выявлять тенденции, характеристики или некоторые свойства тех или иных объектов. А качество информации – это одна из важнейших характеристик для потребителей.
С точки зрения качества информация должна быть содержательной, актуальной, достоверной, доступной, устойчивой и прагматичной, поэтому обработка информации представляет собой важную задачу [1, с. 28-42, 2].
Имеются различные подходы к аспектам обработки информации. Если речь идёт о данных некоторых процессов, то одним из таких подходов является статистическая обработка информации.
Качество информации, получаемой из временных рядов, зависит от множества факторов: от частоты дискретизации, точности измерений, способов вычислений, особенностей конкретного процесса и других факторов. Одним из таких факторов является наличие или отсутствие выбросов значений, существенно меняющих сведения о временном ряде. Если временной ряд обладает робастностью, то значительных изменений в характеристиках ряда может и не последовать [3]. Но на практике зачастую встречаются временные ряды, не обладающие данным статистическим свойством.
Существует большое число методов по предварительному преобразованию временных рядов с целью приведения ряда к виду, пригодному для обработки. В их основе лежат различные подходы, связанные с использованием различных статистических характеристик и математических методов. В статье рассматриваются особенности результатов применения некоторых алгоритмов предварительной обработки данных к временным рядам.
Временным рядом называется серия величин, описывающих некоторый процесс, измеренных и записанных в последовательные, как правило, равные промежутки времени [4]. Рассмотрим некоторые варианты устранения выбросов путём сглаживания временного ряда алгоритмами медианного сглаживания и среднего сглаживания. Покажем, что алгоритмы сглаживания применимы к различного вида рядам, т.е. не привязаны к конкретным статистическим характеристикам.
Пусть имеется некоторый временной ряд, который обладает следующими статистическими характеристиками:
· количество элементов – 50;
· среднее арифметическое – 12,36;
· медиана – 11;
· стандартное отклонение – 10,36.
После применения сглаживающих фильтров по трём точкам полученные временные ряды обладают следующими характеристиками:
· среднее арифметическое – 12;
· медиана – 11;
· стандартное отклонение – 6.
Для граничных точек при данных видах сглаживания использовалась процедура Тьюки [5, 6, с. 529-539]. При этом после сглаживания визуально заметно, что, несмотря на близость значений статистических характеристик к характеристикам исходного ряда (среднее арифметическое и медиана), визуально ряд, сглаженный с помощью среднего арифметического, более точно повторяет поведение исходного ряда, а ряд, сглаженный медианой, имеет наиболее выраженные тенденции, характеризующие ряд (рис. 1).
Рисунок 1. Визуализация сглаживания ряда с помощью медианы и среднего значения по 3 точкам (по горизонтальной оси - индексы элементов; по вертикальной оси - значения элементов)
Аналогичный эксперимент был проведён по сглаживанию по пяти и семи точкам. Данный эксперимент показал, что использование таких алгоритмов устраняет выбросы исходного ряда, но при этом может приводить к появлению новых выбросов. Особенно наглядно это становится заметно при сглаживании с помощью среднего значения в граничных точках.Результаты эксперимента приведены в таблице 1, где в столбце «Способ сглаживания» условно обозначены алгоритмы преобразования данных, например, среднее-3 – это способ сглаживания через среднее арифметическое с окном скольжения длиной в 3 элемента.
Таблица 1. Результаты сглаживания с использованием процедуры Тьюки
способ сглаживания
|
среднее арифметическое
|
медиана
|
стандартное отклонение
|
размах
|
исходный ряд
|
12,36
|
11,00
|
10,36
|
54,00
|
среднее-3
|
12,19
|
11,33
|
6,35
|
25,67
|
среднее-5
|
12,27
|
11,40
|
4,42
|
25,00
|
среднее-7
|
12,12
|
11,50
|
4,64
|
34,29
|
медиана-3
|
12,16
|
10,50
|
5,93
|
22,00
|
медиана-5
|
12,18
|
11,00
|
5,15
|
20,00
|
медиана-7
|
12,32
|
11,00
|
4,74
|
21,00
|
Использование линейного сглаживания с помощью интерполяционных многочленов позволяет в некоторых случаях избежать возникновения новых выбросов, получая при этом результаты, приближённые к сглаживанию с использованием процедуры Тьюки [7] (рис. 2). Для сглаживания по трём точкам применяются следующие формулы:
где N – число наблюдений во временном ряду.
Формулы, применяемые для линейного сглаживания по пяти точкам:
где N – число наблюдений во временном ряду.
Для сглаживания по семи точкам используется алгоритм нелинейного сглаживания.
где N – число наблюдений во временном ряду.
Результаты эксперимента приведены в таблице 2.
Таблица 2. Результаты сглаживания с использованием интерполяционных многочленов
способ сглаживания
|
среднее арифметическое
|
медиана
|
стандартное отклонение
|
размах
|
исходный ряд
|
12,36
|
11,00
|
10,36
|
54,00
|
среднее-3
|
12,30
|
11,50
|
6,23
|
25,67
|
среднее-5
|
12,50
|
11,40
|
4,56
|
20,60
|
среднее-7
|
12,41
|
11,17
|
6,55
|
29,62
|
медиана-3
|
12,09
|
10,50
|
5,89
|
22,50
|
медиана-5
|
12,34
|
11,00
|
5,42
|
20,00
|
медиана-7
|
12,66
|
11,00
|
5,83
|
26,43
|
Рисунок 2. Визуализация сглаживания ряда с использованием интерполяционных полиномов (по горизонтальной оси - индексы элементов; по вертикальной оси - значения элементов)
Помимо этого, на практике широко зарекомендовал себя фильтр 4253Н – фильтр, основанный на последовательности преобразований исходного ряда через четырёхточечную скользящую медиану с применением центрирования, пятиточечное медианное сглаживание и трёхточечную скользящую медиану с использованием весов Хеннинга [8-10]. Данный фильтр сперва применяется к исходному ряду, а затем к остаткам, полученным в результате сглаживания. Сумма сглаженных остатков и ряда, сглаженного на первом этапе, представляет собой ряд, сглаженный фильтром.
Преобразованный этим фильтром ряд визуально сохраняет все тенденции исходного ряда и обладает статистическими свойствами, подобными исходному ряду (рис. 3).
Рисунок 3. Визуализация сглаживания ряда с помощью 4253Н-фильтра (по горизонтальной оси - индексы элементов; по вертикальной оси - значения элементов)
Существует несколько известных вариаций этого фильтра. Наиболее часто применяются 4253Hи 4253H-twice.
Помимо этого, фильтр 3RSSH, основанный на цикличном применении скользящей медианы к элементам ряда, также хорошо снижает влияние выбросов на статистические характеристики временного ряда. Фильтр циклично применяет медианное сглаживание по трём точкам к блокам временного ряда, ограниченных стыками повторяющихся значений, тем самым добиваясь устранения значений-выбросов и приводя кривую визуально к более гладкому виду [8, 11, 12].
Сглаживание с пропуском среднего (skip-meanfilter, sm-filter)также иногда применяется при обработке временных рядов [13]. Зачастую данный способ сглаживания используется в комбинации с другими видами сглаживания, поскольку разовое применение данного алгоритма в большинстве случаев не способно полностью устранить выбросы – алгоритм, как правило, смещает выбросы.
Таблица 3. Результаты сглаживания с использованием фильтров 4253Н и 3RSSH
способ сглаживания
|
среднее арифметическое
|
медиана
|
стандартное отклонение
|
размах
|
исходный ряд
|
12,36
|
11,00
|
10,36
|
54,00
|
4253Н
|
12,21
|
11,54
|
4,62
|
19,58
|
4253Н-twice
|
12,16
|
11,97
|
4,38
|
19,16
|
3RSSH
|
11,95
|
11,00
|
5,21
|
21,50
|
sm
|
12,34
|
12,00
|
6,83
|
31,50
|
sm-twice
|
12,27
|
12,38
|
5,41
|
26,00
|
Заменим несколько элементов исходного ряда на значения-выбросы и получим модифицированный ряд. Такое внедрение в исходный ряд нескольких элементов-выбросов позволит оценить, насколько тот или иной метод сглаживания проявляет себя лучше.
Пусть в новом, модифицированном ряде имеются 4 значения-выброса, различимые даже на уровне визуального анализа временного ряда. Применим поочерёдно алгоритмы сглаживания и сравним полученные результаты.
Таблица 4. Результаты сглаживания после добавления элементов-выбросов
способ сглаживания
|
среднее арифметическое
|
медиана
|
стандартное отклонение
|
размах
|
модифицированный ряд
|
12,08
|
12,00
|
30,16
|
200,00
|
среднее-3 (Тьюки)
|
11,91
|
12,17
|
17,12
|
72,67
|
среднее-5 (Тьюки)
|
12,27
|
11,40
|
4,42
|
25,00
|
среднее-7 (Тьюки)
|
12,12
|
11,50
|
4,64
|
34,29
|
среднее-3 (интерполяция)
|
12,02
|
12,83
|
17,08
|
72,67
|
среднее-5 (интерполяция)
|
12,22
|
12,50
|
12,51
|
46,20
|
среднее-7 (интерполяция)
|
12,00
|
11,29
|
17,19
|
68,62
|
медиана-3 (Тьюки)
|
12,80
|
11,00
|
6,39
|
25,00
|
медиана-5 (Тьюки)
|
12,18
|
11,00
|
5,15
|
20,00
|
медиана-7 (Тьюки)
|
12,32
|
11,00
|
4,74
|
21,00
|
медиана-3 (интерполяция)
|
12,73
|
11,00
|
6,36
|
25,00
|
медиана-5 (интерполяция)
|
12,96
|
11,00
|
5,48
|
20,00
|
медиана-7 (интерполяция)
|
13,26
|
11,00
|
5,41
|
24,24
|
4253Н
|
12,94
|
12,33
|
4,71
|
19,58
|
4253Н-twice
|
12,93
|
12,38
|
4,45
|
19,16
|
3RSSH
|
12,61
|
12,50
|
5,21
|
21,50
|
sm
|
12,06
|
12,50
|
21,06
|
110,50
|
sm-twice
|
11,99
|
12,00
|
17,73
|
105,25
|
Заметим, что размах элементов выборки значительно сокращается в случаях применения алгоритмов сглаживания, основанных на использовании медианы, а наилучшие результаты получены при сглаживании с использованием комбинированных 4253Н-фильтров. При этом алгоритмы, основанные на использовании среднего арифметического наиболее подвержены влиянию выбросов: алгоритмы хоть и избавляют от элементов-выбросов, но тем не менее изменяют характер поведения временного ряда на участках, где данные элементы находились. А в случае с использованием фильтров с пропуском среднего размах и вовсе изменяется незначительно по сравнению с методами на основе медиан (рис. 4).
Рисунок 4.Визуализация сглаживания ряда с выбросами с помощью 4253Н-фильтра (по горизонтальной оси - индексы элементов; по вертикальной оси - значения элементов)
Таким образом, использование алгоритмов по сглаживанию данных на основе медианы позволяет наилучшим из рассмотренных способов устранить выбросы из обрабатываемых временных рядов. Это связано с тем, что медиана является наиболее робастной, т.е. устойчивой к помехам, статистической характеристикой [14].
Применение сглаживающих фильтров позволяет устранить выбросы, сохранив при этом общие характеристики временного ряда. Автоматизация применения сглаживающих фильтров позволит сократить временные затраты на исследование и дальнейшую обработку временного ряда.
Как было показано в экспериментальной части, широкий спектр методов сглаживания, а также сравнение различных статистических характеристик позволяет определить, какой из применённых алгоритмов наиболее применим в исследуемой ситуации. Для автоматизации расчёта было реализовано программное средство, позволяющее не только применять данные алгоритмы, но и визуализировать процесс сглаживания с сохранением истории применения трансформаций, а также сразу определять необходимые статистические характеристики. Благодаря этому, пользователь имеет возможность вернуться к любому шагу истории в том случае, если применённая трансформация искажает временной ряд (рис. 5). Программное средство разработано в среде Microsoft Visual Studio 2015, поскольку данная инструментальная среда обладает достаточным функционалом для реализации всех необходимых компонентов, в частности для визуализации графики, сохранения истории изменений и возможности применения различных алгоритмов.
Рисунок 5. Визуализация применения алгоритмов сглаживания с помощью программного средства
Выводы
Авторы кратко описали способы применения алгоритмов преобразования данных на примере их применения к временному ряду с выбросами и без выбросов. Приведены сравнительные характеристики применения алгоритмов и проанализированы полученные в результате экспериментов данные. Предложено программное средство, упрощающее проведение анализа временного ряда на предмет устранения выбросов.
References
1. Khaidarov K.A. Skhema formirovaniya informatsionnykh mer i vychislitel'nyi eksperiment po proverke vozmozhnostei teoretiko-informatsionnogo podkhoda k raspoznavaniyu obrazov // Avtomatizirovannaya sistema nauchnykh issledovanii v gornom dele. Alma-Ata: Nauka KazSSR, 1987. 180 s.
2. «Syraya» informatsiya bespolezna: vazhnost' obrabotki dannykh [Elektronnyi resurs] // Internet-agentstvo «Teksterra» [sait]. URL: https://texterra.ru/blog/syraya-informatsiya-bespolezna-vazhnost-obrabotki-dannykh.html (data obrashcheniya: 09.10.2018).
3. Kh'yuber Dzh.P. Robastnost' v statistike. M. : Mir, 1984. 304 s.
4. Mishulina O.A. Statisticheskii analiz i obrabotka vremennykh ryadov: ucheb. posobie dlya studentov vuzov. M. : MIFI, 2004. 178 s.
5. The Future of Data Analysis [Elektronnyi resurs] // JSTOR [sait]. 2000. URL: https://www.jstor.org/stable/2237638 (data obrashcheniya: 09.10.2018).
6. Tukey J.W. Nonparametric estimation II. Statistically equivalent blocks and tolerance regions. The continuous case / Annals of Mathematical Statistics. 1947. Vol. 18(4). 618 s.
7. D'yakonov V.P. Spravochnik po algoritmam i programmam na yazyke beisik dlya personal'nykh EVM. M. : Nauka, 1987. 240 s.
8. Transformations of Variables – Smoothing Tab [Elektronnyi resurs] // STATISTICA. 2017. URL: http://documentation.statsoft.com/STATISTICAHelp.aspx (data obrashcheniya: 09.10.2018).
9. Blackman R.B., Tukey J.W. The Measurement of Power Spectra from the Point of View of Communications Engineering – Part I [Elektronnyi resurs] // IEEE Xplore. Digital Library [sait]. URL: https://ieeexplore.ieee.org/document/6768513 (data obrashcheniya: 07.10.2018)
10. Spektral'nyi analiz na ogranichennom intervale vremeni. Okonnye funktsii [Elektronnyi resurs] // Teoriya i praktika TsOS [sait]. URL: http://www.dsplib.ru/content/win/win.html (data obrashcheniya: 07.10.2018).
11. Stata 13 help for tssmooth_nl [Elektronnyi resurs] // STATA [sait]. 2014. URL: https://www.stata.com/help13.cgi?tssmooth_nl (data obrashcheniya: 07.10.2018).
12. Kremer N.Sh., Putko B.A. Ekonometrika: Uchebnik dlya vuzov. M. : YuNITI-DANA, 2003. 311 s.
13. Shrivastava P., Singh U.P. Noise removal using First Order Neighborhood Mean Filter [Elektronnyi resurs] // IEEE Xplore. Digital Library [sait]. URL: https://ieeexplore.ieee.org/document/7057004 (data obrashcheniya: 06.10.2018).
14. Kendall M., St'yuart A. Statisticheskie vyvody i svyazi. M. : Nauka, 1973. 899 s.
|