Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Cybernetics and programming
Reference:

Feasibility study on solution of redundant network component of the fault-tolerant scalable computing system of a special-purpose

Borodin Andrey Viktorovich

PhD in Economics

Professor, Department of Computer Science and System Programming, Volga State University of Technology

424000, Russia, respublika Marii El, g. Ioshkar-Ola, pl. Lenina, 3

bor@mari-el.com
Other publications by this author
 

 

DOI:

10.7256/2306-4196.2015.6.17523

Received:

09-01-2016


Published:

19-01-2016


Abstract: The research is devoted to architectural aspects of creation of fault-tolerant scalable computing systems of a special-purpose. In particular the study focuses on the principles of backup which can be used in a network subsystem of the computing system in the conditions of essential dependence of total cost of ownership of system on a level of degradation of performance metrics. Authors consider such approaches to backup as duplicating and a triple redundancy. For the principle of a triple redundancy in this research the new concept of the functional adaptation of elements of redundancy is offered. Special attention in the paper is paid to the dependence of a "Value at Risk" measure of risk, that characterizes by a random variable of total cost of ownership of the computing system and defines the greatest possible loss at the given level of probability, from such parameters of a system as number of the functional groups of hosts and a level of influence of single and group faults on degradation of performance metrics. For a risk process description in the computing system the notation of ordinary stochastic Petri nets is used. For computation of a measure of risk of "Value at Risk" on the given time-interval the methods of the algebraic theory of risk are used. The main result of the research is in proving the concept of productivity of a triple redundancy approach with the functional adaptation of elements of redundancy in the task of synthesis of topology of a network subsystem. The novelty of research consists in use of methods of the algebraic theory of risk in a task of synthesis of an optimum architecture of computing systems on the given discrete sets of possible decisions.


Keywords:

willingness, availability, computer system, scaling, fault tolerance, reservation, feasibility study, triple redundancy, functional adaptation, Value at Risk


Введение

Вопросам повышения готовности и доступности вычислительных систем (ВС) в настоящее время уделяется значительное внимание. Это связано с тем, что многие критические процессы человеческой деятельности управляются ВС и масштаб использования ВС в этом качестве год от года стремительно увеличивается.

Настоящая статья посвящена решению задачи технико-экономического анализа совокупности подходов к повышению доступности и готовности вычислительных систем, в которых критически важным ресурсом является сетевая подсистема, а логика целевого функционирования ВС предполагает выделение нескольких функционально обособленных групп узлов сети (в рамках которых возможны различные стратегии масштабирования). Важнейшей стратегией при этом является стратегия горизонтального масштабирования [10].

При анализе влияния одиночных и групповых отказов элементов ВС на степень соответствия параметров целевого функционирования системы заявленным характеристикам был использован метод визуального моделирования систем в нотации ординарных стохастических сетей Петри [4, 5]. Для расчета интегральных технико-экономических показателей функционирования ВС на заданном интервале времени были использованы вычислительны методы алгебры рисков [12].

Примеры отказоустойчивых масштабируемых вычислительных систем специального назначения

Основным подходом к повышению готовности и доступности ВС является резервирование. При этом, часто, аналогичные по используемой топологии решения возникают в рамках масштабирования ВС для увеличения производительности. В качестве примеров, иллюстрирующих эту ситуацию, в данной работе были рассмотрены:

1) отказоустойчивая система доступа к сети Internet, использующая концепцию «когнитивного интернета» [2], см. рис. 1;

2) отказоустойчивая гетерогенная система дистрибуции точного времени в сетях передачи данных [1, 6], см. рис. 2.

coi_stend002

Рис. 1. Структурная схема лабораторного стенда, реализующая концепцию «когнитивного интернета» для повышения производительности доступа к ресурсам сети Интернет, а также показателей соответствующей доступности сервиса

stend001new

Рис. 2. Структурная схема стенда, реализующего отказоустойчивый сетевой эталон времени с подсистемой мониторинга состояния окружающей среды и оборудования стенда

Сравнение топологий обеих систем позволило выявить общие черты используемых технических решений: разделение сетевой подсистемы на два сегмента. В первом случае на управляющий и рабочий сегменты, во втором – на сегмент первичных источников времени и сеть общего назначения. В обоих случаях такое разделение было продиктовано соображениями повышения производительности систем. Заметим, что в каждом из рассмотренных примеров критерии производительности разные. Однако, и в том, и в другом случае масштабирование (и резервирование) в функциональных группах обеспечивалось простым наращиванием количества соответствующих хостов, подключенных к обоим сегментам. В такой схеме «узким местом» оказывается сетевая подсистема. Даже в случае наличия механизмов динамической реконфигурации сетевой подсистемы потеря одного сетевого сегмента приведет к деградации характеристик системы в целом.

Концепция троирования

Для решения этой проблемы напрашивается идея дальнейшего наращивания количества связующих сетевых сегментов, например, до трех. В этом случае мы получаем такой хорошо зарекомендовавший себя в критически важных приложениях вариант резервирования, как троирование [9, 11, 16, 17]. Традиционно троирование реализуется в рамках принципа мажорирования [11, 17], когда результатом выполнения функции резервированного узла в каждый момент времени является результат, полученный хотя бы двумя из трех его избыточных элементов, и, иногда, в рамках принципов кворума [17], когда решение о том, какой результат выполнения целевой функции верен, принимается на основе какого-либо более сложного суждения, нежели простое большинство. В нашем случае троирование на уровне сетевой подсистемы не влечет возникновения проблемы выбора результата функционирования того или иного сегмента, требуется лишь принятие решения о конкретном функциональном назначении элемента резервирования в течение некоторого последующего промежутка времени. Таким образом, в нашем случае правомерно говорить о троировании с функциональной адаптацией элементов избыточности.

Концепция троирования с функциональной адаптацией элементов избыточности в нашем случае может быть реализована в рамках топологии, использующей три идентичных сетевых сегмента и представленной на рис. 3.

hpr001 Рис. 3. Топология высокопроизводительной отказоустойчивой ВС

В рамках предлагаемой топологии распределение сетевых сегментов по функциям (раскраска функций) происходит динамически при старте системы, при этом третий сегмент используется как элемент масштабирования наиболее нагруженной из двух основных функциональных групп. При отказе сетевого сегмента одной из функциональных групп третий динамически подхватывает его роль (формируется новая раскраска функций). Такой подход обеспечивает в том числе возможность горячей замены отказавших узлов ВС без заметной «просадки» производительности.

Для резервирования системы по питанию использовано техническое решение, предложенное в работе [7].

Модель отказов в вычислительной системе

При исследовании предложенной топологии (рис. 3) были использованы методы технико-экономического обоснования инфраструктурных решений в условиях риска [13]. В качестве основной нотации описания процессов риска предметной области был выбран язык ординарных стохастических сетей Петри [5]. Модель элементарного интервала времени, в течение которого может произойти одиночный или групповой отказ элементов ВС с последующим их восстановлением, в выбранной нотации представлена на рис. 4. Данная модель сформирована в предположении использования концепции троирования с функциональной адаптацией элементов избыточности для сетевой подсистемы и в предположении, что каждая функциональная группа `quad G_i` , `i = 1,quad2, quad ... quad, quad n` , содержит три хоста. Предполагаем также, что для выполнения ВС своей функции с заданным уровнем производительности необходимо наличие двух активных хостов в каждой группе, снижение этого количества до одного хотя бы в одной функциональной группе означает деградацию метрик производительности, отказ всех элементов хотя бы одной группы означает отказ ВС. Последнее предположение касается и сетевой подсистемы.

modeltri001

Рис. 4. Модель одиночного или группового отказа элементов ВС с последующим восстановлением, включая возможные последствия (или временное прекращение выполнения ВС своей функции, или временную деградацию метрик производительности).

На рисунке использованы следующие обозначения:

`p_1` – позиция, единичная маркировка которой означает начало элементарного интервала времени моделирования;

`p_(2ij)` – позиция, соответствующая началу моделирования поведения `j`-го элемента ВС, принадлежащего `i`-ой функциональной группе;

`p_(2ij0), quad p_(2ij1)` – позиции стохастической группы, соответствующей состоянию природы (причинам развития риск-процесса) для `j`-го элемента ВС, принадлежащего `i`-ой функциональной группе (единичная маркировка позиции `p_(2ij0)` означает отказ элемента, альтернативная единичная маркировка позиции `p_(2ij1)` соответствует ситуации безотказной работы элемента);

`p_(3ij0), quad p_(3ij1)` – позиции, единичная маркировка которых означает соответственно отказ `j`-го элемента ВС, принадлежащего `i`-ой функциональной группе, с последующим его восстановлением, и безотказное функционирование этого элемента на данном элементарном интервале времени;

`p_(4i0), quad p_(4i1)` и `p_(4i2)` – позиции, единичная маркировка которых означает соответственно полный отказ элементов `i`-ой функциональной группы, функционирование одного элемента функциональной группы и функционирование не менее двух элементов в `i`-ой группе;

`p_(50), quad p_(51)` и `p_(52)` – позиции, единичная маркировка которых означает соответственно полный отказ ВС, функционирование ВС с деградацией метрик производительности и функционирование ВС в соответствии со спецификацией;

`p_6` – позиция, единичная маркировка которой означает окончание элементарного интервала времени моделирования;

`t_0` – переход, соответствующий событию начала моделирования ВС на элементарном интервале времени;

`t_(2ij0), quad t_(2ij1)` – переходы, означающие соответственно событие отказа и последующего восстановления `j`-го элемента ВС, принадлежащего `i`-ой функциональной группе, и событие безотказной работы данного элемента на данном элементарном интервале времени; переход `t_(2ij0)` охарактеризован затратами на восстановление отказавшего элемента;

`t_(3ik)` – переход, соответствующий `k`-му исходу функционирования `i`-ой функциональной группы на данном элементарном интервале времени;

`t_(4l)` – переход, соответствующий внутреннему исходу функционирования ВС с номером `l` на данном элементарном интервале времени;

`t_(50), quad t_(51)` и `t_(52)` – переходы, описывающие исходы функционирования ВС с внешней точки зрения: отказ ВС, деградация метрик производительности ВС, соответствие параметров функционирования ВС спецификации; эти три перехода охарактеризованы совокупной стоимостью владения ВС для каждого случайного исхода;

`B_(3i)` – множество входящих дуг, выделяющих все возможные исходы в `i`-ой функциональной группе;

`F_(3i)` – множество исходящих дуг, обеспечивающих подсчет исправных элементов в `i`-ой функциональной группе (ноль, один или больше двух);

`B_4` – множество входящих дуг, выделяющих все возможные внутренние исходы в ВС;

`F_4` – множество исходящих дуг, обеспечивающих определение степени работоспособности ВС (отказ, деградация метрик производительности или функционирование в соответствии со спецификацией);

`i=0, quad 1, quad ... quad, quad n, quad quad j=1, quad 2, quad 3, quad quad k=1, quad 2, quad ... quad, quad 8, quad quad l=1, quad 2, quad ... quad, quad m, quad quad m=3^(n+1)`;

`n` – количество функциональных групп.

Индекс `i=0` относится к сетевой подсистеме.

Множества `B_(3i), quad F_(3i), quad i=0, quad 1, quad ... quad, quad n, quad B_4, quad F_4` представлены графически на рис. 4 в виде облака без структуры, ввиду высокой плотности дуг. Нанесение всех этих дуг на рисунок, несмотря на их существенную регулярность, не наглядно, их матричное представление гораздо более информативно.

Длины списков позиций и переходов подсчитаны соответственно в таблицах 1 и 2.

Таблица 1. Длины групп (подсписков) в списке позиций

listpostri003

Таблица 2. Длины групп (подсписков) в списке переходов

listtransittri003

На основе данных таблиц 1 и 2 можно сформировать структуры матриц предшествования `B` (см. рис. 5) и следования `F` (см. рис. 6) для сети Петри, приведенной на рис. 4. На рисунке светло-голубым тоном выделены области матрицы, соответствующие нанесенным на рис. 4 дугам. Более интенсивным голубым цветом и яркой черной границей выделены подматрицы, соответствующие неструктурированным облакам на рис. 4.

matrb002

Рис. 5. Структура матрицы предшествования `B` сети Петри.

matrf002

Рис. 6. Структура матрицы следования `F` сети Петри.

Структура и логика формирования подматриц матриц предшествования `B` и следования `F` представлены на рисунках 7 и 8. Эти подматрицы представляют неструктурированные облака рис. 4, что и объясняет использование тех же обозначений.

b3if3i001

Рис. 7. Структура и логика формирования матриц `B_(3i), quad F_(3i), quad i=0, quad 1, quad ... quad, quad n` .

b4f4001

Рис. 8. Структура и логика формирования матриц `B_4` и `F_4 .`

Модель риск-процесса на заданном интервале времени формируется как цепочка моделей элементарных интервалов времени необходимой длины. Так как модели каждого элементарного интервала времени идентичны, то для расчетов с большой эффективностью могут применяться методы алгебраической теории риска [12], в частности, методы теории однородного портфеля.

Результаты численных экспериментов

Для расчетов был использован пакет прикладных программ (ППП) «МультиМИР» [14, 15]. В частности с помощью этого ППП для каждого исследуемого варианта производился расчет меры риска «Value at Risk» [18, 19] для случайной величины совокупной стоимости владения системой. Эта мера показывает наихудший случай, или иначе, наибольшую величину совокупной стоимости владения, которые могут реализоваться с вероятностью не выше пороговой.

Были использованы следующие исходные данные. Стоимости одного хоста, коммутатора одного сетевого сегмента и всей пассивной части, а также затраты на регламентное обслуживание системы в год принимались за единицу. Соответственно переход `t_0` был охарактеризован суммарными затратами на создание и обслуживание системы, складывающимися из выше перечисленных величин, естественно со знаком минус. Переходы `t_(2ij0), quad i=0, quad 1, quad ... quad, quad n, quad j=1, quad 2, quad 3`, были охарактеризованы минус единицей – затратами на замену вышедшего из строя оборудования. Переходы `t_(50)` , `t_(51)` и `t_(52)` были охарактеризованы величинами компенсации реализации соответствующих рисков в стоимостном выражении, соответственно `-2gamma c` , `- gamma c` , и `0` , где `c` – стоимость системы, `gamma` – коэффициент значимости деградации метрик производительности. Вероятности маркировок для стохастических групп позиций были вычислены исходя из значения MTBF=250000 часов. Пороговая вероятность меры риска «Value at Risk» была равна 0.01. При рассмотрении варианта с дублированием сетевой подсистемы использовалась та же модель одиночного или группового отказа (рис. 4), в которой была увеличена на единицу характеризация перехода `t_0` и вероятность отказа одного коммутатора была принята за ноль.

Результаты расчетов приведены на рис. 9. На рисунке ряды данных «Ряд1», «Ряд3» и «Ряд5» соответствуют варианту дублирования сетевой подсистемы, ряды «Ряд2», «Ряд4» и «Ряд6» – варианту троирования, при этом ряды «Ряд1» и «Ряд2» соответствуют значению `gamma=1` , ряды «Ряд3» и «Ряд4» – значению `gamma=1.5` , а ряды «Ряд5» и «Ряд6» – значению `gamma=2` .

vartri001

Рис. 9. Графическое представление результатов численного моделирования

Нетрудно заметить, что при значении `gamma=1` вариант троирования становится более предпочтительным уже при `n>4`. С ростом чувствительности целевого результата функционирования системы к степени деградации метрик производительности пороговое значение `n` сдвигается к своей нижней границе – к двум.

Выводы

Основным результатом данной работы является новая топология высокопроизводительной отказоустойчивой ВС, отличающаяся кратностью резервирования сетевой подсистемы и использованием оригинальной отказоустойчивой силовой подсистемы. Проведенные численные эксперименты показывают целесообразность использования предложенной топологии в критически важных приложениях, требующих больших объемов вычислений и возможного дальнейшего масштабирования.

В то же время следует отметить, что предложенная топология может рассматриваться лишь как топология масштабируемых отказоустойчивых систем начального уровня. ВС, ориентированные на сверхвысокие нагрузки на сетевую подсистему, требуют использования более развитых технологий коммутации пакетов и, соответственно, требуют дальнейшего исследования. В дальнейшем предполагается работа в этом направлении. Также значительный интерес для дальнейших исследований представляет сравнение интегральных метрик производительности ВС [3] в условиях использования традиционных и предложенных технических решений на отрезках времени, на которых имели место отказы компонентов ВС. Следует отметить, что рассмотренный в рамках данного исследования подход может быть использован шире, например, при оптимизации распределенных вычислительных систем [8].

References
1. Antonov, V. M. Innovatsionnye podkhody k razvitiyu tekhniki i tekhnologii. Kn. 1 / V. M. Antonov, A. V. Borodin, Yu. A. Ipatov i dr. – Odessa: KUPRIENKO SV, 2015. – 172 s.
2. Borodin, A. V. Ispol'zovanie kontseptsii «kognitivnogo interneta» v zadachakh povysheniya nadezhnosti i proizvoditel'nosti sistem statsionarnoi i podvizhnoi tsifrovoi svyazi / A. V. Borodin, R. Yu. Nikitin, A. O. Pomerantsev, A. I. Shiryaev // Innovatsii v nauke. Sbornik statei po materialam XLIV mezhdunarodnoi nauchno-prakticheskoi konferentsii. № 4(41). – Novosibirsk: Izdatel'stvo «SibAK», 2015. – S. 24-35.
3. Borodin, A. V. Metody klassifikatsii i snizheniya razmernosti pri vizualizatsii metrik proizvoditel'nosti / A. V. Borodin, A. N. Azarova // Kibernetika i programmirovanie. – 2015. – № 4. – S. 1-35. – DOI: 10.7256/2306-4196.2015.4.15271. – URL: http://e-notabene.ru/kp/article_ 15271.html.
4. Borodin, A. V. Igry na setyakh Petri / A. V. Borodin // Obozrenie prikladnoi i promyshlennoi matematiki. – 2002. – T. 9. – V. 1. – S. 167-168.
5. Borodin, A. V. Teoretiko-igrovye modeli protsessov riska nad setyami Petri / A. V. Borodin // Modelirovanie i analiz bezopasnosti i riska v slozhnykh sistemakh: Trudy mezhdunarodnoi nauchnoi shkoly MABR-2006. – SPb.: GOU VPO «SPbGUAP», 2006. – S. 305-307.
6. Borodin, A. V. Uchebno-ispytatel'nyi poligon otrabotki tekhnologii distributsii tochnogo vremeni / A. V. Borodin, A. S. Varlamov, D. V. Korablev // Kibernetika i programmirovanie. – 2015. – № 3. – S. 11-23. – DOI: 10.7256/2306-4196.2015.3.15438. – URL: http://e-notabene.ru/kp/ article_15438. html.
7. Goncharov, A. Yu. Postroenie otkazoustoichivykh sistem elektropitaniya s ispol'zovaniem sovremennykh AC/DC preobrazovatelei / A. Yu. Goncharov, K. V. Stepnev, O. L. Negreba // Sovremennaya elektronika. – 2010. – №4. – S. 26-29.
8. Grishentsev, A. Yu. Postanovka zadachi optimizatsii raspredelennykh vychislitel'nykh sistem / A. Yu. Grishentsev, A. G. Korobeinikov // Programmnye sistemy i vychislitel'nye metody. – 2013. – № 4. – S. 370-375. – DOI: 10.7256/2305-6061.2013.4.10548.
9. Liseikin, V. A. Osobennosti upravleniya i avariinoi zashchity izdeliya pri ognevykh ispytaniyakh stendovogo bloka pervoi stupeni RN «Soyuz-2-1v» / V. A. Liseikin, I. A. Tozhokin // Vestnik Samarskogo gosudarstvennogo aerokosmicheskogo universiteta. – 2013. – № 4(42). – S. 181-195.
10. Masshtabiruemost' // Vikipediya. Svobodnaya entsiklopediya. – URL: https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%81%D1%88%D1%82%D0%B0%D0%B1%D0%B8%D1%80%D1%83%D0%B5%D0%BC%D0%BE%D1%81%D1%82%D1%8C. Data obrashcheniya: 23.04.2015
11. Tyurin, S. F. Otkazoustoichivyi logicheskii element LUT PLIS FPGA / S. F. Tyurin // Vestnik Permskogo universiteta. Seriya Matematika. Mekhanika. Informatika. – 2014. – № 4(27). – S. 97-104.
12. Urazaeva, T. A. Algebra riskov / T. A. Urazaeva. – Ioshkar-Ola: Povolzhskii gosudarstvennyi tekhnologicheskii universitet, 2013. – 209 s.
13. Urazaeva, T. A. Modeli riska v tekhniko-ekonomicheskom obosnovanii infrastrukturnykh reshenii / T. A. Urazaeva // Sovremennye problemy i perspektivy sotsial'no-ekonomicheskogo razvitiya predpriyatii, otraslei, regionov: sbornik statei. – Ioshkar-Ola: Povolzhskii gosudarstvennyi tekhnologicheskii universitet, 2015. – S. 161–164.
14. Urazaeva, T. A. O funktsional'nosti paketa prikladnykh programm «Mul'tiMIR» / T. A. Urazaeva // Sovremennye problemy i perspektivy sotsial'no-ekonomicheskogo razvitiya predpriyatii, otraslei, regionov. – Ioshkar-Ola: Povolzhskii gosudarstvennyi tekhnologicheskii universitet, 2014. – S. 261-265.
15. Urazaeva, T. A. Paket prikladnykh programm «Mul'tiMIR»: arkhitektura i primenenie / T. A. Urazaeva // NB: Kibernetika i programmirovanie. – 2014. – № 5. – S. 34-61. – DOI: 10.7256/2306-4196.2014.5.12962. – URL: http://e-notabene.ru/kp/article_12962.html.
16. Shishkevich, A. A. Rezervirovanie LVS real'nogo vremeni EtherCAT / A. A. Shishkevich // Izvestiya Tul'skogo gosudarstvennogo universiteta. Tekhnicheskie nauki. – 2014. – №12-2. – S. 244-251.
17. Shishkevich, A. A. Otsenka pokazatelei nadezhnosti vychislitel'nykh ustroistv s trekhkratnym mazhorirovaniem pri otkazakh i sboyakh / A. A. Shishkevich // Izvestiya vuzov. Elektronika. – 2013. – № 4(102). – S. 84-88.
18. Holton, G. A. Value-at-Risk: Theory and Practice / G. A. Holton. – Academic Press, 2003. – 405 p.
19. Jorion, P. Value at Risk: The New Benchmark for Managing Financial Risk / P. Jorion. – McGraw-Hill, 2006. – 543 p.