Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Cybernetics and programming
Reference:

Approximation of the distribution law of the sum of beta distributed random variables

Oleinikova Svetlana Aleksandrovna

Doctor of Technical Science

Associate Professor, Department of Automated and Computing Systems, Voronezh State Technical University

394026, Russia, g. Voronezh, Moskovskii prospekt, 14

s.a.oleynikova@gmail.com
Other publications by this author
 

 

DOI:

10.7256/2306-4196.2015.6.17225

Received:

08-12-2015


Published:

19-01-2016


Abstract: The subject of the research in this paper is the probability density function (PDF) of the random variable, which is the sum of a finite number of beta values. This law is widespread in the theory of probability and mathematical statistics, because using it can be described by a sufficiently large number of random events, if the value of the corresponding continuous random variable concentrated in a certain range. Since the required sum of beta values can not be expressed by any of the known laws, there is the problem of estimating its density distribution. The aim is to find such approximation for the PDF of the sum of beta-values that would have the least error. To achieve this goal computational experiment was conducted, in which for a given number of beta values the numerical value of the PDF with the approximation of the desired density were compared. As the approximations it were used the normal and the beta distributions. As a conclusion of the experimental analysis the results, indicating the appropriateness the approximation of the desired law with the help of the beta distribution, were obtained. As one of the fields of application of the results the project management problem with the random durations of works is considered. Here, the key issue is the evaluation of project implementation time, which, because of the specific subject area, can be described by the sum of the beta values.


Keywords:

random value, beta distribution, density function, normal distribution, the sum of random variables, computational experiment, recursive algorithm, approximation, error, PERT


Введение

Рассматривается задача оценки закона распределения суммы бета-величин. Это универсальный закон, с помощью которого можно описать большинство случайных явлений с непрерывным законом распределения. В частности, в подавляющем числе случаев исследования случайных явлений, которые могут быть описаны одномодальными непрерывными случайными величинами, лежащими в определенном диапазоне значений, такую величину можно аппроксимировать законом бета. В связи с этим задача отыскания закона распределения суммы бета-величин не только носит научный характер, но и представляет определенный практический интерес. При этом, в отличие от большинства законов распределения, закон бета не обладает уникальными свойствами, позволяющими аналитически описать искомую сумму. Более того, специфика данного закона такова, что извлечение кратного определенного интеграла, необходимого при определении плотности суммы случайных величин, крайне затруднительно, и результат представляет собой достаточно громоздкое выражение уже при n=2, причем с увеличением числа слагаемых сложность конечного выражения повышается многократно. В связи с этим, возникает задача аппроксимации плотности распределения суммы бета-величин с минимальной погрешностью.

В данной работе представлен подход к нахождению аппроксимации для искомого закона путем вычислительного эксперимента, позволяющего для каждого конкретного случая сравнить погрешность, получаемую путем оценки интересующей плотности с помощью наиболее подходящих законов: нормального и бета. В результате сделан вывод о целесообразности оценки суммы бета-величин с помощью бета-распределения.

1. Постановка задачи и ее особенности

В общем случае закон бета определяется плотностью, заданной в интервале [0,1] следующим образом [2, 5]:

` f_(xi_(i))(x)={(0, ; t<0), ((t^(p_(i)-1)(1-t)^(q_(i)-1))/(B(p_(i),q_(i))(b_(i)-a_(i))^(p_(i)+q_(i)-1)), ; 0<=t<=1;),(0, ; t>1):} (1)`

` `

` `

Однако, практический интерес представляют, как правило, бета-величины, определенные в произвольном интервале [a,b]. В первую очередь это связано с тем, что круг практических задач в данном случае гораздо шире, а, в во-вторых, при нахождении решения для более общего случая, получить результат для частного случая, который будет определяться случайной величиной (1), не будет представлять никакой трудности. Поэтому в дальнейшем будем рассматривать случайные величины, определенные на произвольном интервале. В этом случае задачу можно сформулировать следующим образом.

Рассматривается задача оценки закона распределения случайной величины, представляющей собой сумму случайных величин `xi_(i) ,`i=1,…,n, каждая из которых распределена по закону бета в интервале [ai,bi] с параметрами pi и qi. Плотность распределения отдельных слагаемых будет определяться по формуле:

Частично задача поиска закона суммы бета величин уже была решена ранее. В частности, в [4] были получены формулы, позволяющие оценить сумму двух бета величин, каждая из которых определена с помощью (1). В [9] предложен подход к поиску сумму двух случайных величин с законом распределения (2).

Однако, в общем случае исходная задача не решена. Это связано в первую очередь со спецификой формулы (2), не позволяющей получить компактные и удобные для использования формулы при нахождении плотности от суммы случайных величин. Действительно, для двух величин `xi_1` и `xi_2` искомая плотность будет определяться следующим образом:

`f_(eta)(z)=int_-prop^propf_(xi_1)(x)f_(xi_2)(z-x)dx (3)`

В случае сложения n случайных величин получается кратный интеграл. При этом для данной задачи возникают сложности, связанные со спецификой бета-распределения. В частности, уже для n=2 использование формулы (3) приводит к весьма громоздкому результату, который определяется через гипергеометрические функции [1]. Повторное взятие интеграла от полученной плотности, которое необходимо делать уже при n=3 и выше, крайне затруднительно. При этом не исключены погрешности, которые неизбежно возникнут при округлении и расчете столь сложного выражения. В связи с этим возникает необходимость в поиске аппроксимации для формулы (3), позволяющей применять известные формулы с минимальной погрешностью.

` `

` `

` `

2. Вычислительный эксперимент для аппроксимации плотности суммы бета-величин

Для анализа специфики искомой плотности распределения был проведен эксперимент, позволяющий собрать статистические сведения о случайной величине, представляющей собой сумму наперед заданного числа случайных величин, имеющих распределение бета с заданными параметрами. Более подробно постановка эксперимента была описана в [6]. Варьируя параметрами отдельных бета-величин, а также их количеством, в результате большого числа проведенных опытов пришли к следующим выводам.

1. Если отдельные случайные величины, входящие в сумму, имеют симметричные плотности, то гистограмма итогового распределения имеет вид, близкий к нормальному. Также близки к нормальному закону оценки числовых характеристик итоговой величины (математическое ожидание, дисперсия, асимметрия и эксцесс).

2. Если отдельные случайные величины асимметричны (как с положительной, так и с отрицательной асимметрией), но суммарная асимметрия равна 0, то с точки зрения графического представления и числовых характеристик полученный закон распределения также близок к нормальному.

3. В остальных случаях искомый закон визуально близок к закону бета. В частности, сумма пяти асимметричных случайных величин представлена на рисунке 1.

_1

Рисунок 1 - Сумма пяти одинаково асимметричных случайных величин

Таким образом, на основании проведенного эксперимента можно выдвинуть гипотезу о возможной аппроксимации плотности суммы бета-величин нормальным или бета распределением.

Для подтверждения данной гипотезы и выбора единственного закона для аппроксимации проведем следующий эксперимент. Задав количество случайных величин, имеющих бета-распределение, а также их параметры, найдем численное значение искомой плотности и сравним его с плотностью соответствующего нормального или бета-расределения. Для этого потребуется:

1) разработать алгоритм, позволяющий численно оценить плотность суммы бета-величин;

2) при заданных параметрах и количестве исходных величин определить параметры итогового распределения в предположении о нормальном или бета распределении;

3) определить погрешность аппроксимации нормальным распределением или распределением бета.

Рассмотрим данные задачи более подробно. Численный алгоритм отыскания плотности суммы бета-величин основан на рекурсии. Сумму n произвольных случайных величин можно определить следующим образом:

`eta_(n)=xi_(1)+...+xi_(n)=eta_(n-1)+xi_(n)` , (4)

где

`eta_(n-1)=xi_(1)+...+xi_(n-1)` . (5)

Аналогичным образом можно описать плотность распределения случайной величины `eta_(n-1)` :

`eta_(n-1)=xi_(1)+...+xi_(n-1)=eta_(n-2)+xi_(n-1)` , (6)

Продолжая аналогичные рассуждения и используя формулу (3), получим:

`f_(eta_(n))(x)=int_-prop^prop(f_(xi_(n-1))(x-x_(n-1))*int_-prop^prop(f_(xi_(n-2))(x_(n-1)-x_(n-2))...int_-prop^propf_(xi_(2))(x_(2)-x_(1))dx_(1)...)dx_(n-2))dx_(n-1). (7)`

Более подробно эти рассуждения, а также специфика определения плотности для величин, имеющих распределение бета, приведены в [11].

Параметры итогового закона распределения определяются, исходя из предположения о независимости случайных величин. В этом случае математическое ожидание и дисперсия их суммы будут определяться по формулам:

`Meta_(n)=Mxi_(1)+...+Mxi_(n), (8)`

и

Для нормального закона параметры а и `sigma` будут непосредственно определяться по формулам (8) и (9). Для бета распределения предварительно необходимо рассчитать нижнюю и верхнюю границу. Их можно определить следующим образом:` `

`a=sum_(i=1)^na_(i)` ; (10)

и

` ` `b=sum_(i=1)^nb_(i) ` . (11)

Здесь ai и bi – границы интервалов отдельных слагаемых. Далее составим систему уравнений, включающих в себя формулы для математического ожидания и дисперсии бета-величины:

`{(Mxi=a+(b-a)p/(p+q)),(Dxi=(b-a)^(2)(pq)/((p+q)^2(p+q+1))):} (12)`

Здесь `xi` - случайная величина, описывающая искомую сумму. Ее математическое ожидание и дисперсия определяются формулами (8) и (9); параметры a и b - формулами (10) и (11). Решив систему (12) относительно параметров p и q, будем иметь:

`p=((b-Mxi)(Mxi-a)^2-Dxi(Mxi-a))/(Dxi(b-a))` . (13)

`q=((b-Mxi)^2(Mxi-a)-Dxi(b-Mxi))/(Dxi(b-a))` . (14)

Далее необходимо численно оценить погрешность аппроксимации плотности суммы случайных величин, имеющих распределение бета, нормальным законом и законом бета. Для этого воспользуемся формулой:

`E=int_a^b|hatf(x)-f_(eta)(x)|dx. (15)`

Здесь `hatf(x)` - аппроксимация суммы бета-величин; `f_(eta)(x)` - закон распределения суммы бета-величин.

Будем последовательно менять параметры отдельных бета-величин для оценки погрешностей. В частности, будет представлять интерес следующие вопросы:

1) насколько быстро сумма бета-величин сходится к нормальному распределению, и возможна ли оценка суммы другим законом, который будет иметь минимальную погрешность относительно истинного закона распределения суммы бета-величин;

2) насколько сильно увеличивается погрешность при увеличении асимметрии составляющих бета-величин;

3) как будет изменяться погрешность в случае, если интервалы распределения бета-величин сделать различными.

Общую схему алгоритма эксперимента для каждых отдельных значений параметров бета-величин, можно представить следующим образом (рисунок 2).

_2

Рисунок 2 - Общая схема алгоритма эксперимента

Здесь:

- PogBeta – погрешность, возникающая из-за аппроксимации итогового закона бета-распределением в интервале [ti,ti+1];

- PogNorm - погрешность, возникающая из-за аппроксимации итогового закона нормальным распределением в интервале [ti,ti+1];

- ItogBeta – итоговое значение погрешности, возникающей из-за аппроксимации итогового распределения законом бета;

- ItogNorm – итоговое значение погрешности, возникающей из-за аппроксимации итогового распределения нормальным законом.

3. Результаты эксперимента

Проанализируем результаты эксперимента, описанного ранее.

Динамика уменьшения погрешностей при увеличении числа слагаемых представлена ни рисунке 3. По оси абсцисс приведено число слагаемых, а по оси ординат – величина погрешности. Здесь и далее ряд "Норм" показывает изменение прогрешности нормальным распределением, ряд "Бета" - бета - распределением.

_3

Рисунок 3 - Уменьшение погрешностей при уменьшении числа слагаемых

Как видно из данного рисунка, для двух слагаемых погрешность аппроксимации законом бета примерно в 4 раза ниже, чем погрешность аппроксимации нормальным законом распределения. Очевидно, что при увеличении слагаемых погрешность аппроксимации нормальным законом уменьшается гораздо быстрее, чем законом бета. Можно также предположить, что при очень большом числе слагаемых аппроксимация нормальным законом будет иметь меньшую погрешность, чем аппроксимация бета-распределением. Однако, с учетом значения величины погрешности в этом случае можно делать вывод, что с точки зрения числа слагаемых бета-распределение является предпочтительным.

На рисунке 4 представлена динамика изменения погрешностей при увеличении асимметрии случайных величин. Без ограничения общности, параметр p всех исходных бета-величин, был зафиксирован со значением 2, а по оси абсцисс представлена динамика изменения параметра q+1. По оси ординат на графиках представлена погрешность аппроксимации. Результаты эксперимента с другими значениями параметров в целом аналогичны.

В данном случае также очевидна предпочтительность аппроксимации суммы бета-величин бета-распределением.

_4

Рисунок 4 - Изменение погрешностей аппроксимаций при увеличении асимметрии величин

Далее анализировалось изменение погрешностей при изменении размаха исходных бета-величин. На рисунке 5 приведены результаты измерения погрешности для суммы четырех бета-величин, три из которых распределены в интервале [0,1], а размах четвертой последовательно увеличивается (он отложен по оси абсцисс).

_5

Рисунок 5 - Изменение погрешностей при изменении интервалов распределения случайных величин

На основании графических иллюстраций, приведенных на рисунках 3-5, а также с учетом данных, полученных в результате эксперимента, можно сделать вывод о целесообразности использования бета – распределения для аппроксимации суммы бета-величин.

Как показали полученные результаты, в 98% случаев погрешность при аппроксимации исследуемой величины законом бета будет ниже, чем, при аппроксимации нормальным распределении. Средняя величина погрешности аппроксимации бета будет зависеть в первую очередь от ширины интервалов, на которых распределено каждое слагаемое. При этом от симметричности случайных величин, а также от количества слагаемых данная оценка (в отличие от нормального закона) зависит крайне незначительно.

4. Приложения

Одной из областей применения полученных результатов является задача управления проектами. Проект представляет собой совокупность взаимно-зависимых последовательно-параллельных работ со случайной длительностью обслуживания. В этом случае длительность проекта будет представлять собой случайную величину. Очевидно, что оценка закона распределения данной величины представляет интерес не только на этапах планирования, но и при анализе возможных ситуаций, связанных с несвоевременным завершением всех работ. С учетом того, что запаздывание проекта может привести к самым разнообразным неблагоприятным ситуациям, в том числе, штрафам, оценка закона распределения случайной величины, описывающей длительность проекта, представляется крайне важной практической задачей.

В настоящее время для такой оценки используется метод PERT [2, 3]. Согласно его предположениям, длительность проекта представляет собой нормально распределенную случайную величину `eta` с параметрами:

`a=sum_(i=1)^k Meta_(i)` , (16)

и

`sigma=sqrt(sum_(i=1)^k D eta_(i))` . (17)

Здесь k - количество работ, стояших на критическом пути проекта; `eta_(1)` ,..., `eta_(k)` - длитлеьности этих работ.

Рассмотрим корректировку метода PERT с учетом полученных результатов. В данном случае будем предполагать, что длительность проекта распределена по закону бета с параметрами (13) и (14).

Примерим полученные результаты на практике. Рассмотрим проект, заданный сетевым графиком, представленным на рисунке 6.

_6

Рисунок 6 - Пример сетевого графика

Здесь ребрами графа обозначены работы, весами ребер обозначены номера работ; вершины в квадратах – события, означающие начало или окончание работ. Пусть работы заданы длительностями, приведенными в таблице 1.

Таблица 1 - Временные характеристики работ проекта

№ работы min max Мат. ож.
1 5 10 9
2 3 6 4
3 6 8 7
4 4 7 6
5 4 7 7
6 2 5 3
7 4 8 6
8 4 6 5
9 6 8 7
10 2 6 4
11 9 13 12
12 2 6 3
13 5 7 6

В приведенной таблице min – наименьшее время, за которое может быть выполнена данная работа; max – наибольшее время; Мат. ож. – математическое ожидание бета распределения, показывающее ожидаемое время выполнения данной работы.

Сымитируем процесс выполнения проекта с помощью специально разработанной системы имитационного моделирования. Более подробно она описана в [8]. В качестве выходных данных требуется получить:

- гистограммы проекта;

- оценку вероятностей выполнения проекта в заданном интервале на основании статистических данных системы имитационного моделирования;

- оценку вероятностей с помощью нормального и бета распределений.

В ходе моделирования выполнения проекта 10000 раз, получили выборку длительности обслуживания, гистограмма которой представлена на рисунке 7.

_7

Рисунок 7 - Гистограмма длительности проекта

Очевидно, что внешний вид гистограммы, представленной на рисунке 7, отличается от графика плотности нормального закона распределения.

Воспользуемся формулами (8) и (9) для нахождения итогового математического ожидания и дисперсии. Получим:

`M eta=27; D eta=1.3889.`

Вероятность попадания в заданный интервал будем рассчитывать по известной формуле:

`P(l<eta<r)=int_l^rf_(eta)(x)dx,` (18)

где `f_(eta)(x)` - закон распределения случайной величины `eta` , l и r - границы интересующего интервала.

Рассчитаем параметры для итогового бета-распределения. Для этого воспользуемся формулами (13) и (14). Получим:

p=13,83; q=4,61.

Границы бета-распределения определим по формулам (10) и (11). Будем иметь:

a=18; b=30.

Результаты исследования приведем в таблице 2. Без ограничения общности, выберем число прогонов модели, равное 10000. В столбце «Статистика» рассчитана вероятность, полученная на основе статистических данных. В столбце «Нормальный» представлена вероятность, рассчитанная по нормальному закону распределения, который сейчас испльзуется для решения задачи. В столбце «Бета» приведено значение вероятности, рассчитанное на основании бета-распределения.

Таблица 2 – Результаты вероятностных оценок

Интервал Статистика Нормальный Бета
`(a-sigma;a)` 0.2988 0.3413 0.3018
`(a-sigma;a+sigma)` 0.6862 0.6828 0.6761
`(a;a+sigma)` 0.3874 0.3413 0.3743
`(a+sigma;a+2sigma)` 0.1542 0.1359 0.1578
меньше `a-3sigma` 0.0043 0.0013 0.0043

Исходя из результатов, представленных в таблице 2, а также аналогичных результатов, полученных в ходе моделирования процесса выполнения других проектов, можно сделать вывод о том, что полученные оценки аппроксимации суммы случайных величин (2) бета-распределением позволяют получить решение данной задачи с большей точностью по сравнению с существующими аналогами.

Выводы

Целью данной работы являлось нахождение такой аппроксимации закона распределения суммы бета-величин, которая отличалась бы наименьшей погрешностью по сравнению с другими аналогами. Получены следующие результаты.

1. Экспериментальным путем была выдвинута гипотеза о возможности аппроксимации суммы бета-величин с помощью бета распределения.

2. Разработано программное средство, позволяющее получить численное значение погрешности, возникающей при аппроксимации искомой плотности нормальным законом распределения и законом бета. В основе данной программы лежит рекурсивный алгоритм, позволяющий численно определит ь плотность суммы бета-величин с заданной плотностью, который более подробно описан в [11].

3. Поставлен вычислительный эксперимент, целью которого являлось определение наилучшей аппроксимации путем сравнительного анализа погрешностей в различных условиях. Результаты эксперимента показали целесообразность использования бета-распределения в качестве наилучшей аппроксимации плотности распределения суммы бета-величин.

4. Представлен пример, в котором полученные результаты представляют практическую значимость. Это задачи управления проектами со случайным временем выполнения отдельных работ. Важной проблемой для таких задач является оценка рисков, связанных с несвоевременным завершением проекта. Полученные результаты позволяют получить более точные оценки искомых вероятностей и, как следствие, уменьшить вероятности ошибок при планировании.

References
1. Beitmen G., Erdeii A. Vysshie transtsendentnye funktsii: Gipergeometricheskaya funktsiya. Funktsii Lezhandra. — M.: Nauka, 1965. Per. izd.: Bateman Harry, Erdelyi Arthur. Higher transcendental functions. Vol. 1 — 1953. – 296 s.
2. Vinokurov A.S., Nikolaev S.V., Bazhenov R.I. Realizatsiya metoda PERT v programmnoi sisteme GanntProject // Nauka-Rastudent.ru.-2015.-№ 6(18). – C. 22.
3. Golenko-Ginzburg D.I. Stokhasticheskie setevye modeli planirovaniya i upravleniya razrabotkami: Monografiya – Voronezh: «Nauchnaya kniga», 2010. – 284 s.
4. Dzhonson N.L. Odnomernye nepreryvnye raspredeleniya [elektronnyi resurs]: v 2 ch. Ch.2 / N.L. Dzhonson, S. Kots, Balakrishnan ; per. 2-go angl. izd. – M.: Binom. Laboratoriya znanii, 2010-2012. – 600 s.
5. Kobzar' A.I. Prikladnaya matematicheskaya statistika. Dlya inzhenerov i nauchnykh rabotnikov. – M.: Fizmatlit, 2006. – 816 s.
6. Oleinikova S. A. Vychislitel'nyi eksperiment dlya analiza zakona raspredeleniya sluchainoi velichiny, opisyvayushchei dlitel'nost' proekta v zadachakh setevogo planirovaniya i upravleniya // Ekonomika i menedzhment sistem upravleniya. – 2013.-№ 3(9). – S. 91-97.
7. Oleinikova S. A. Osobennosti sistemy imitatsionnogo modelirovaniya dlya zadach upravleniya proektami so sluchainoi dlitel'nost'yu vypolneniya rabot // Kibernetika i programmirovanie. - 2015.-№ 2.-S.68-77. DOI: 10.7256/2306-4196.2015.2.14509.
8. Oleinikova S.A. Otsenka kriticheskogo vremeni v zadachakh upravleniya proektami // Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta. 2011. T. 7. № 2. S. 106-109.
9. Gupta A.K., Nadarajah S. Handbook of Beta Distribution and Its Applications. New York: Marsel Dekker, 2004. – 579 p.
10. Borodin A.V. Rekonstruktsiya i issledovanie datchika psevdosluchainykh chisel v VBA-podsisteme Microsoft Office // Kibernetika i programmirovanie. - 2014. - 4. - C. 14 - 45. DOI: 10.7256/2306-4196.2014.4.12648. URL: http://www.e-notabene.ru/kp/article_12648.html
11. Oleinikova S.A. Rekursivnyi chislennyi metod dlya eksperimental'noi otsenki zakona raspredeleniya dlitel'nosti proekta v zadachakh setevogo planirovaniya i upravleniya // Programmnye sistemy i vychislitel'nye metody. - 2015. - 1. - C. 69 - 78. DOI: 10.7256/2305-6061.2015.1.14674.