Die Betreiber von Netzwerkdiensten müssen Anomalien in ihren Systemen möglichst frühzeitig erkennen, um entsprechende Gegenmaßnahmen einleiten zu können. Klassische Methoden, etwa die Nutzung fester Grenzwerte, sind dazu zwar geeignet, sie sind jedoch nur statisch. Anders die Methode zur automatischen Anomalieerkennung, die auf der Auswertung mehrdimensionaler Signal-basierter Messwerte beruht.
Die Methode passt sich automatisch an allmähliche Änderungen und periodische Last-Zyklen der gemessenen Signale an und unterstützt die Auswertung mehrerer unabhängiger Messwerte. Das Ergebnis: Analysen mit einer deutlich verbesserten Aussagekraft. Denn die neue Methode trifft nicht nur qualitative (ja/nein) Aussagen darüber, ob eine Anomalie vorliegt, sondern quantifiziert diese Aussage zusätzlich mit einem Zahlenwert (dem sogenannten Konfidenzwert), der angibt, wie sehr die gemessenen Signale auf eine Anomalie hindeuten.
Leistungsüberwachung und Anomalieerkennung sind für komplexe Netzwerkdienste von immenser Bedeutung. Sie helfen Angriffe und Probleme rechtzeitig zu erkennen und zu beheben. Die Anpassung von herkömmlichen statischen Überwachungsmethoden ist jedoch nur begrenzt für komplexe, verteilte Dienste geeignet. Der Grund: Diese Dienste müssen häufig stark und unvorhergesehen wechselnde Lastsituationen bewältigen. Eine statische Festlegung von Grenzwerten muss also zwangsläufig scheitern.
Eine Analyselösung muss aber Angriffe und Fehler in der eigenen Infrastruktur (zum Beispiel Hardwareausfälle oder Konfigurationsprobleme) von harmlosen oder gewünschten Lastspitzen unterscheiden können. Flash-Crowd Ereignisse – etwa ein durch die Medien in kürzester Zeit populär gewordener Netzwerkdienst – bewirken, dass die Last auf den Systemen rapide ansteigt, was in diesem Fall natürlich gewünscht ist. Falls dieser plötzliche Erfolg jedoch fälschlicherweise als Denial-of-Service-Angriff (DoS) missinterpretiert wird, können die dann ergriffenen Schutzmaßnahmen Probleme verursachen. Im schlimmsten Fall kann die Reaktion auf den vermeintlichen Fehler zur Nichterreichbarkeit des Dienstes führen, obwohl die Serverkapazität den Nutzer-Ansturm eigentlich hätte bewältigen können.