KIP-Veröffentlichungen

Jahr 2012
Autor(en) Camilo Ernesto Lara Martinez
Titel The SysMES Framework: System Management for Networked Embedded Systems and Clusters
KIP-Nummer HD-KIP 12-43
KIP-Gruppe(n) F19
Dokumentart Dissertation
Keywords (angezeigt) Cluster , Eingebettetes System , Monitoring , CERN, Systemmanagement , Regelbasiertessystem , Verteilte Systeme, rule-based system management , distributed system management , system management
Abstract (de)

Automatisiertes System Management für verteilte und heterogene Umgebungen ist eine derzeitige Herausforderung der Informatik. Gewünschte Eigenschaften eines solchen Systems sind unter anderem eine möglichst geringe Abhängigkeit von menschlichen Arbeitskräften für Problemerkennung und -lösung, Anpassungsfähigkeit an variierende Last, Fehlertoleranz und Flexibilität in Bezug auf die Integration neuer Managementressourcen zur Laufzeit. Vorhandene Tools decken Teile dieser Anforderungen ab, es gibt jedoch kein umfassendes und integriertes Framework, welches alle diese Charakteristiken besitzt.
SysMES wurde als integriertes Framework für das automatisierte Monitoring und Management verteilter Ressourcen entwickelt. Um den Zielstellungen der Skalierbarkeit und der Fehlertoleranz zu genügen, wurde eine vollständig verteilte und dezentrale Architektur konzipiert. Das Framework umfasst ein Monitoring-Modul, eine Rule-Engine und ein Ausführungsmodul verantwortlich für die Ausführung von administrativen Aktionen. Für die Spezifikation von Fehlerzuständen auf Basis von komplexen räumlichen und zeitlichen Zusammenhängen und geeigneter Lösungsmöglichkeiten wurde eine formale Sprache entwickelt. Die so entstehenden Regeln werden von der Rule-Engine verarbeitet und ermöglichen dadurch eine automatisierte Problembehandlung. Dies führt zu einer Reduktion der Menge und Dauer manueller Eingriffe. Die SysMES Implementierung basiert auf Standards und realisiert damit eine weitgehende Interoperabilität und Herstellerunabhängigkeit. Die objektorientierte Modellierung der Managementressourcen ermöglicht ihre Beschreibung auf verschiedenen Abstraktionsebenen und vereinfacht daher den Umgang mit der Komplexität einer großen und heterogenen Umgebung. Dergestalt modellierte Managementressourcen können, im Sinne erhöhter Flexibilität, zur Laufzeit modifiziert und erweitert werden. Multiple Testserien und eine Referenzinstallation zeigen die Erfüllung der theoretischen Anforderungen sowie den praktischen Nutzen des entwickelten Systems für das Management großer, heterogener Umgebungen auf.

Abstract (en)

Automated system management for large distributed and heterogeneous environments is a common challenge in modern computer sciences. Desired properties of such a management system are, among others, a minimal dependency on human operators for problem recognition and solution, adaptability to increasing loads, fault tolerance and the flexibility to integrate new management resources at runtime. Existing tools address parts of these requirements however there is no single integrated framework which possesses all mentioned characteristics.
SysMES was developed as an integrated framework for automated monitoring and management of networked devices. In order to achieve the requirements of scalability and fault tolerance, a fully distributed and decentralized architecture has been chosen. The framework comprises a monitoring module, a rule engine and an executive module for the execution of actions. A formal language has been defined which allows administrators to define complex spatial and temporal rule conditions for failure states and according reactions. These rules are used in order to reduce the number and duration of manual interventions in the managed environment by automated problem solution. SysMES is based on standards ensuring interoperability and manufacturer independence. The object-oriented modeling of management resources allows several abstraction levels for handling the complexity of managing large and heterogeneous environments. Management resources can be extended and (re)configured without downtime for increased flexibility. Multiple tests and a reference installation demonstrate the suitability of SysMES for automated management of large heterogeneous environments.

URL Lara_Diss
KIP - Bibliothek
Im Neuenheimer Feld 227
Raum 3.402
69120 Heidelberg