В рамках данного проекта были разработан, описан и реализован набор из 19 правил, позволяющих обнаруживать различные случаи снижения качества работы суперкомпьютера. Каждое правило задает алгоритм поиска признаков, сигнализирующих о наступлении определенного случая, содержит описание возможных причин его возникновения, а также определяет критичность возникшей ситуации. Данные правила позволяют анализировать самые разные аспекты работы суперкомпьютера: эффективность использования прикладных пакетов, работу системы очередей, загрузку и доступность служебных серверов, наличие глобальных проблем с производительностью в пользовательских приложениях, особенности использования отдельных разделов суперкомпьютера. Для этих целей выполняется анализ множества различных типов данных, получаемых с помощью систем мониторинга, менеджера ресурсов и другого системного программного обеспечения.
Разработанные правила легли в основу программного решения, которое было реализовано и апробировано на суперкомпьютере петафлопсного уровня Ломоносов-2. Данное решение постоянно работает на суперкомпьютере и с заданной периодичностью проверяет его состояние, оперативно оповещая администраторов о выявленных случаях снижения качества работы. Проведенная апробация показала применимость и полезность полученного решения на практике. Так, с помощью данного решения было обнаружено аномально неэффективное использование прикладного пакета в одном из разделов, зафиксированы признаки нештатной ситуации в работе инфраструктуры суперкомпьютера, а также найдены запуски приложений с чрезмерно высокой загрузкой вычислительных узлов, что приводило к появлению существенных накладных расходов. Данное решение разработано по возможности максимально переносимым – реализация созданных правил, а также существенная часть всей программной реализации является машинно-независимой и может применяться в других суперкомпьютерных центрах.
119234, Российская Федерация, Москва, ГСП-1, Ленинские горы, дом 1, стр. 4, НИВЦ МГУ
+7 495 939-5424,
Подробнее
Все материалы сайта НИВЦ МГУ доступны по лицензии: