Startseite > Security > Wie man False Positive-Kennzahlen richtig liest

Cybersecurity-Strategien

Wie man False Positive-Kennzahlen richtig liest

18. Juli 2023, 14:30 Uhr | Autor: Steffen Eid / Redaktion: Diana Künstler

Die Zahl der Cyberangriffe nimmt weltweit zu, und Unternehmen stellen sich darauf ein, sich immer öfter und besser verteidigen zu müssen. Unter diesem Gesichtspunkt müssen Networking und Security miteinander verbunden werden, um bessere Performance und besseren Schutz zu erreichen.

In der Praxis sind meist die verschiedensten Tools und Technologien im Einsatz, um die Sicherheit von Computersystemen zu erhöhen und somit das eigene Netzwerk möglichst gut abzusichern. Ein Problem (zumindest bisher) dabei: False Positives. Doch sind sie wirklich relevant?

Der Artikel liefert unter anderem Antworten auf folgende Fragen:

Was sind False Positives?
Welche Probleme ergeben sich im Zusammenhang mit False Positives?
Wie sinnvoll sind False Positives als Kennzahl für ein Security-System?
Warum setzen viele Anbieter sowohl Machine Learning als auch statistische Analyseverfahren bei der Erkennung von Bedrohungen ein?
Warum ist die Frage „Wie hoch ist die False-Positive-Rate?“ der falsche Ansatz?
Was ist unter der Low-Regret-Methode zu verstehen?

False Positives treten auf, wenn ein Sicherheitssystem einen Alarm auslöst, obwohl keine tatsächliche Bedrohung vorliegt. Es handelt sich also um eine fehlerhafte Meldung, die ein Sicherheitsrisiko anzeigt, das in Wirklichkeit nicht existiert. Beispielsweise, wenn ein Antiviren-Programm eine legitime Datei als schädlich ansieht und infolgedessen einen Alarm auslöst.

Das Hauptproblem bei False Positives ist, dass sie Ressourcen der Security-Experten verschwenden. Wenn ein Sicherheitssystem kontinuierlich falsche Alarme auslöst, müssen diese untersucht werden, um sicherzustellen, dass es sich tatsächlich nur um harmlose Fehlalarme handelt. So wird wertvolle Zeit für die Untersuchung von Bedrohungen aufgewendet, die nicht existieren. Sinnvoller wäre es natürlich, diese Zeit in das Bekämpfen echter Bedrohungen zu investieren.

Gleichzeitig können False Positives dazu führen, dass Sicherheits-Tools an Effektivität verlieren. Wenn ein System kontinuierlich falsche Alarme auslöst, besteht die Gefahr, dass Sicherheitsexperten beginnen, diese zu ignorieren oder als irrelevant zu betrachten. Im schlimmsten Fall werden so echte Bedrohungen übersehen. False Positives können die Security-Abteilungen also vor echte Herausforderungen stellen. Deshalb ziehen viele Experten die Menge der False Positives auch als wichtige Kennzahl ihres Security-Systems heran. Doch wie sinnvoll ist das? Denn auf den zweiten Blick ist diese Kennzahl nicht ganz so eindeutig ist, wie sie auf den ersten scheint.

Matchmaker+ Anbieter zum Thema

zu Matchmaker+

Das Problem mit der False Positive-Kennzahl

Nehmen wir ein fiktives Beispiel aus dem Domain-Name-System-Bereich (DNS): Unser Algorithmus erkennt 80 Prozent aller schadhaften Domains und stuft legitime Domains in 5 Prozen der Fälle fälschlicherweise als schadhaft ein. Für unser Beispiel verwenden wir einen Satz von 50 Domains. Dann sieht die Auswertung durch den Algorithmus wie folgt aus:

In den vorliegenden Daten finden sich zehn schadhafte Domains, von denen unser Algorithmus acht findet.
Von den verbleibenden 40 legitimen Domains interpretiert unser Algorithmus fälschlicherweise zwei als schadhaft.
Insgesamt werden 8 + 2 = 10 Domains im Datensatz als schadhaft deklariert.

In diesem Szenario schlägt sich der Algorithmus auf den ersten Blick recht gut. Er erkennt zehn Domains als schadhaft und 80 Prozent davon sind es tatsächlich. Allerdings werden auch zwei legitime Domains als schadhaft erkannt – die „False Positive“-Rate beträgt also 2/10 oder 20 Prozent. Aufgrund der Beschreibung des Algorithmus hätten wir wahrscheinlich eher 5 Prozent vermutet. Wenn das Netzwerk, wie in unserem Beispiel, nur 50 Domains umfasst, ist das nicht weiter schlimm – aber wenn Millionen von Domains überprüft werden müssen, kommt es zu millionenfachen Falschmeldungen.

Leider haben wir es in der Realität im Bereich des DNS nicht nur mit sehr großen Datenmengen zu tun, sondern der Prozentsatz der schadhaften Domains liegt deutlich unter 10 Prozent. Experten sind sich über die Zahl uneinig, aber um unser Beispiel fortzusetzen, nehmen wir an, dass 5 Prozent der Domänen schadhaft sind und wir statt 50 Domänen 1 Million betrachten. In diesem Beispiel ergibt sich dann folgendes Zahlenwerk:

In den vorliegenden Daten finden sich 50.000 schadhafte Domains, von denen der Algorithmus 40.000 erkennt.
Bei einer Quote von 5 Prozent „False Positives“ würde der Algorithmus von den verbleibenden 950.000 legitimen Domänen fälschlicherweise 47.500 als bösartig einstufen.
Insgesamt werden 87.500 Domänen im Datensatz als schadhaft erkannt.
Unser Algorithmus hat in diesem Szenario eine „False Positive“-Rate von 54 Prozent. Wie kann das passieren? Ganz einfach – es handelt sich hier um ein klassisches Beispiel für die Ausbreitung von Fehlern:

Je größer unsere Daten und je extremer das Ungleichgewicht, desto größer der Fehler.

In der Cybersecurity ist das Analysevolumen groß und das Ungleichgewicht zwischen legitimen und schadhaften Aktivitäten extrem – ganz gleich, ob es sich um Domainnamen, URLs, Netflow oder andere netzwerkbezogene Daten handelt.

Sind False Positives als Kennzahl damit abgeschrieben?

Sollten Machine-Learning-Algorithmen in der Cybersecurity also keine Rolle spielen? Ganz und gar nicht. Viele Anbieter setzen sowohl Machine Learning als auch statistische Analyseverfahren bei der Erkennung von Bedrohungen ein. Aber sowohl Anbieter als auch Anwender sollten sich darüber im Klaren sein, was die Zahlen und Quoten genau bedeuten und welche Auswirkungen ein großer Maßstab, wie beim DNS, haben kann.

Es muss klar sein, dass die Leistungsfähigkeit von Bedrohungsanalysen in verschiedenen Umgebungen unterschiedlich ausfällt. Die Frage „Wie hoch ist die False-Positive-Rate?“ ist daher der falsche Ansatz. Wenn sich False Positives nicht negativ auf das Netzwerk und die Ressourcen im Unternehmen auswirken, dann müssen sie auch keine Rolle spielen. Das Johns Hopkins University Applied Physics Lab (JHU/APL) nennt dies die Low-Regret-Methode zur Anwendung von Erkenntnissen¹. Sie haben Bedrohungsdaten in mehreren kritischen Infrastrukturbereichen getestet und plädieren dafür, die Auswirkungen – sowohl positive als auch negative – als Maßstab für den Erfolg heranzuziehen, anstatt zu versuchen, False Positives zu quantifizieren. Dieser Ansatz erscheint vielversprechend, da hierbei tatsächliche Auswirkungen auf den laufenden Betrieb betrachtet werden und keine abstrakte, sich mit den Rahmenbedingungen verändernde Kennzahl. Natürlich ist dieses Umdenken nicht von heute auf morgen vollzogen.

In der Zwischenzeit sollten sich Security-Experten die Zahlen hinter dem Algorithmus ganz genau anschauen. False Positive-Quoten von 0,00015 Prozent sind in modernen Lösungen schon heute möglich, wenn man beispielsweise auf eine Vielzahl von Algorithmen setzt, von denen einige statistischer Natur sind und andere nicht. Ebenso helfen Human-in-the-Loop-Strategien für Algorithmen und mehrere Verarbeitungsebenen. Security-Teams, die im Blick haben, dass False Positives abhängig von den Rahmenbedingungen sind, erleben keine bösen Überraschungen.

^{1 https://github.com/JHUAPL/Low-Regret-Methodology}

Was ist Human-in-the-Loop?
Ein Human-in-the-Loop ist ein Mensch, der ein KI-System trainiert, testet und optimiert, um zu zuverlässigeren Ergebnissen zu kommen. Die künstliche Intelligenz macht wie ein normaler Schüler zu Beginn einer neuen Tätigkeit Fehler oder versteht bestimmte Einzelheiten falsch.