Startseite > Netzwerke & IT-Infrastruktur > Scoring statt Messen der Ausfallzeit

Qualitätsmanagement im IT-Operating

Scoring statt Messen der Ausfallzeit

15. August 2005, 23:06 Uhr | Hans-Christian Boos, Oliver Heinz/wg Hans-Christian Boos (boos@arago.de) ist Vorstand, Oliver Heinz (heinz@arago.de) Bereichsleiter Systembetrieb und Security bei Arago.

Die Verfügbarkeit und Performance der IT-Plattformen bilden heute die Grundvoraussetzung für funktionierende Geschäftsprozesse. Wichtiger als die reine technische Verfügbarkeit ist aber, dass der jeweiligen Fachabteilung die richtigen Ergebnisse zum richtigen Zeitpunkt vorliegen. Erst dies verhilft dem Prozess zum Erfolg und garantiert seine Qualität. Das IT-Qualitätsmanagement braucht dafür Bewertungsraster jenseits reiner Verfügbarkeitsmessungen.

Auf die zunehmende Abhängigkeit von den IT-Plattformen reagieren die Fachverantwortlichen mit
strikten Forderungen an das IT-Operating. Die IT-Abteilung muss nicht nur die Verfügbarkeit der
Plattform, sondern auch die "richtigen" Ergebnisse zum "richtigen" Zeitpunkt aus den verschiedenen
Applikationen garantieren. Dies erfordert neue Typen von Service-Level-Agreements (SLAs), die den
hohen Anforderungen an die technische Transparenz gerecht werden. Ziel ist die volle Integration
der Systemüberwachung in einer Prozess- und Servicemessung.

Wo Kostenkonsolidierung nicht nur zum Abbau von Ressourcen, sondern auch zur Verbesserung der
Betriebsprozesse geführt hat, kann die IT als Vorreiter bei der Qualitätssicherung des gesamten
Geschäftsprozesses auftreten. Das erfordert aber, genau diese Verbesserungen messbar zu machen. Das
heutige Reporting kann dies nur bedingt leisten.

Zahlreiche IT-Verantwortliche definieren in den meisten SLAs auch heute noch im Wesentlichen die
Systemverfügbarkeit und die Reaktionszeit der IT-Abteilung beziehungsweise des Dienstleisters bei
Ausfällen. Dies reicht nicht aus, um das eigentliche Ziel des Service-Level-Managements (SLM) zu
erreichen – nämlich die Erfüllung der fachlichen Anwender- oder Kundenanforderungen hinsichtlich
preiswerter, quantifizierbarer IT-Services in definierter Qualität. Solche SLAs berücksichtigen
fachliche Belange fast gar nicht; aber auch zu einer umfassenden technischen Bewertung eignen sie
sich nur begrenzt.

Neue SLAs, neue Methoden

Dies zeigt, dass solche SLAs für ein modernes, ITIL-konformes (IT Infrastructure Library) SLM
untauglich sind. Ein SLA muss die IT-Dienstleistung so festschreiben, dass diese den
Geschäftsprozess bestmöglich unterstützt. Um von der allgemeinen Systemverfügbarkeit in
Prozentangaben wegzukommen, vereinbaren die Vertragsparteien SLAs heute gerne durchgängig (End to
End). Das stößt jedoch an die Grenzen verfügbarkeitsbasierter SLAs, die letztlich nur das
Funktionieren einer Infrastruktur beschreiben können.

Um SLAs zu messen, ist nicht nur die scheinbare Zufriedenheit von Anwendern mit einzubeziehen.
Wichtiger sind die tatsächlichen Ergebnisse, die ein IT- dem Fachprozess liefert. Die Messung der
technischen Verfügbarkeit kann hier als Basis dienen. Durch die Zusammensetzung der technischen
Einzeldaten lassen sich für verschiedene Gesamtapplikationen und Prozesszulieferketten
Verfügbarkeiten ermitteln. Diese Verfügbarkeiten gilt es nun um die Ergebnislieferung und die
Messung des eigentlichen Delivery-Prozesses zum Anwender oder Kunden zu erweitern. Die Messung muss
zeigen, ob das geforderte Ergebnis zum gewünschten Zeitpunkt ohne nachträgliche Änderung in
passender Frequenz zur Verfügung stand beziehungsweise ob diese Ergebnisse mit passender
Performance einem realen oder simulierten Benutzer in der richtigen Anwendung bereitstanden.

Scoring-Modell

Diese neue Art der Verfügbarkeitsmessung lässt sich in einem Scoring-Modell (Zielwertmodell)
besser abbilden als mit einer prozentualen Verfügbarkeitsangabe. Die Kombination der einzelnen
technischen Komponenten, ihrer Verfügbarkeit, der Performance und der gewünschten Ergebnisse sowie
deren Qualität lässt sich bei Nichterfüllung von einem Ziel-Score abziehen. So kann das SLM dann
auch "scharfe Einschnitte" in den Prozessergebnissen messen (siehe Kasten auf Seite 74).

Im SLM ist es erforderlich, die zu erbringenden Leistungen exakt zu definieren und deren
tatsächliche Erbringung zu überwachen. Mit einem Scoring-basierten Modell sind die
Einzelleistungen, die ein SLA fordert, exakt bewertbar. Dazu erhält jede Komponente einen
individuellen Teil-Score. Somit läst sich exakt nachweisen, wie die IT ein SLA eingehalten hat. Das
SLM des Kunden kann dies zuverlässig nachvollziehen und auch Kostenveränderungen oder opimierte
Leistung der IT schnell erkennen. Neuartige Tools für das Service-Level-Measurement (SL-Messung)
erzeugen heute ein derartiges Scoring automatisiert über hunderte oder tausende technische
Komponenten und Anwendungen hinweg.

Damit das Servicel-Level-Measurement nach einem Scoring-Verfahren nachvollziebar ist, muss es
objektive Ergebnisse abbilden, ohne operative Risiken zu verschleiern. Dies setzt voraus, die
gesamte Wertschöpfungskette der IT in die Messung einzubeziehen.

Transparenz und Integration

Die Integration der Basiskomponenten wie Netzwerk und RZ-Infrastruktur, gefolgt von Hardware,
Betriebssystem und Standardsoftware, stellen die Grundlage für das Scoring dar. Hierbei erfassen
Tools je nach Umgebung die unterschiedlichsten technischen Messreihen. Diese erhalten einen
Prioritätsschlüssel und bilden zusammen mit den für eine Anwendung notwendigen Komponenten den
Basis-Score. Zusätzlich berücksichtigt ein weiterer Schritt die fachlichen Erfordernisse: Standen
die erforderlichen Daten zum Stichzeitpunkt bereit, vergibt das Scoring-Tool hierfür Punkte. Ist
die Anwendung performant, erreicht sie einen höheren Score als in Fällen, in denen langsame Server
die Benutzer in ihrer Arbeit hemmen. Am Ende der Berechnungen steht so ein tatsächlicher Wert für
die Qualität der bereitgestellten IT-Leistung fest. In den SLAs sind Wertekorridore
(Scoring-Klassen) für gute und schlechte Leistungen abgelegt, die bei entsprechenden Abweichungen
Eskalationen oder Pönalen (Strafzahlungen) auslösen.

Um Anfragen von Fachabteilungen direkt beantworten zu können, ist neben der Darstellung der
Gesamtverfügbarkeit auch immer ein Drill-down notwendig. Dieser stellt die Zusammenhänge und
Prioritäten mit den einzelnen Messergebnissen dar. Bis zur einzelnen Zeitreihe hinunter macht dies
transparent, warum an einer Komponente oder an einem Prozessschritt ein Incident (Vorfall)
aufgetreten ist. Die schnelle Eingrenzung der Problemquellen erleichtert den Technikern die vormals
oft mühselige Suche nach dem entscheidenden Fehler (Root Cause Analysis). Aber auch
IT-Verantwortliche finden so schnell Antworten, wenn sie zeitnah auf brennende Fragen antworten und
auf neue Anforderungen reagieren müssen.

Die Kontrollverfahren sind über das Verfolgen von SLAs und das Monitoring der IT-Performance
hinaus verwendbar. Das Messen der gesamten Infrastruktur als Basisleistung in Kombination mit der
Ergebnis- und Delivery-Messung lässt sich auch einsetzen, um IT-Plattformen, Infrastruktur und vor
allem den Einsatz qualifizierten Personals besser planen zu können.

Auch ein Vergleich der eigenen Plattform mit anderen (mit gleichen oder anderen Anwendungen, aus
dem eigenen Haus oder extern) ist möglich. Er lässt sich mit einer ASP-Plattform (Application
Service Provider) für ein solches Measurement und Monitoring anonymisiert erstellen.

Fazit: Scoring als wertvolle Monitoring-Alternative

Im Vergleich zu anderen Monitoring-Verfahren kann der technische Betrieb mittels Scoring Fehler
schneller eingrenzen. Zudem erhält er wertvolle Informationen über die Performance-Entwicklung.
Damit lässt sich manch ein hektischer Anruf und manche Ad-hoc-Aktion vermeiden, weil dies einen
Blick über den Tellerrand und teilweise auch in die Zukunft ermöglicht. Für die IT-Verantwortlichen
ist es mit den gleichen Mitteln – auf der dargelegten höheren Aggregationsebene – möglich, die
Kosteneffizienz und die Qualität des eigenen IT-Operatings direkt anderen hausinternen oder
externen Plattformen gegenüberzustellen.

So kann ein Manager die eigene Leistung mit dem Markt vergleichen und Schwachstellen seiner
IT-Infrastruktur rechtzeitig entgegenwirken.

Als Beispielsfall dient ein Datenbankserver mit a) einem verfügbarkeits- und b) einem Scoring-basierten SLA.

a) SLA: 99 Prozent Verfügbarkeit pro Jahr (24×7), 30 Minuten Reaktionszeit

99 Prozent Verfügbarkeit bedeuten eine maximale Ausfallzeit von zirka sieben Stunden pro Monat oder einer Viertelstunde pro Tag. Auf den ersten Blick sollte ein solcher Ausfall unproblematisch sein, zumal hier Nacht und Wochenende mit berücksichtigt sind. Auf ein Jahr umgerechnet ergibt dies allerdings eine mögliche Ausfalldauer von fast 88 Stunden - ohne SLA-Verletzung. Dies ist nicht nur aus der Sicht der Fachabteilungen inakzeptabel. Somit sind immer komplizierte Vertragszusätze erforderlich, um die Dauer des maximalen Einzelausfalls oder eine im praktischen IT-Betrieb nie zusicherbare garantierte Wiederherstellungszeit zu vereinbaren. Aber auch ein Einzelausfall der zentralen Unternehmensdatenbank von zwei Stunden zur Hauptbetriebszeit hat meist gravierendere Folgen als ein Ausfall während der Nacht oder an einem Wochenende - ein Faktor, den ein verfügbarkeitsorientiertes SLA nicht berücksichtigt.

Gerade im Datenbankumfeld kommt ein weiterer Faktor zum Tragen: die inhaltliche Komponente. Eine Datenbank kann zu 100 Prozent verfügbar sein, aber nicht verwertbare fachliche Inhalte oder aufgrund mangelnden Inputs veraltete Daten enthalten. Für eine sinnvolle Nutzung des Systems durch die Fachabteilung sind gerade diese Leistungen vertraglich zu garantieren. Dies führt bei SLAs auf Basis der Verfügbarkeit immer zu Problemen.

b) SLA: Scoring-Klasse 1 ist einzuhalten

Anhand eines Punktesystems errechnet ein Scoring-System aus unterschiedlichen technischen und fachlichen Faktoren Ziel-Scores. Das System teilt die dadurch widergespiegelte Leistung anhand von Klassen ein. Faktoren können sein: Verfügbarkeit und Ausfallzeiten, Ausfallzeitpunkt, Datenqualität, erfolgreicher Lauf von Importen oder Datenlieferungen bis zu einem definierten Zeitpunkt sowie Antwortzeiten des Systems. Dabei ist eine getrennte Bewertung abhängig vom Zeitpunkt ebenso möglich wie eine Bewertung von Mehrfachausfällen. Dieses Beispiel zeigt, dass ein Scoring-basiertes SLA die Abbildung der fachlichen Erfordernisse für einen IT-Service deutlich besser leisten kann als eine reine Betrachtung der Verfügbarkeit und der Reaktionszeiten.

Qualitätsmanagement im IT-Operating