Um diese Nachteile zu umgehen, nutzt die nächste Generation der Anti-Viren-Systeme heuristische Ansätze. Dabei beschreibt ein von menschlichen Experten zusammengestelltes Regelwerk, welche Eigenschaften eine bösartige Datei hat. Das macht die Viren-Erkennung deutlich flexibler, weil es die Erkennungsmerkmale breiter interpretiert und nicht stur nach einer bestimmten Zeichenfolge im Code sucht. Doch auch diese Heuristiken basieren auf den Merkmalen bereits bekannter Malware und müssen kontinuierlich an die Vielzahl der variierenden Schadprogramme angepasst werden. Bei ihnen bestehen die Herausforderungen darin, zum einen ausreichend Regeln zu definieren, um alle Varianten der Malware zu erkennen. Zum anderen dürfen diese Regeln aber nicht so breit angelegt sein, dass legitime Dateien irrtümlich als Schadsoftware erkannt werden. Angesichts des riesigen Volumens an neuer Schadsoftware und ihrer möglichen Ähnlichkeit mit legitimen Applikationen sind diese Bedingungen eine außerordentliche Herausforderung für manuell generierte Regeln.
Mit aktivem Lernen gegen das Unbekannte
Die neueste Generation der Anti-Malware-Systeme setzt den heuristischen Gedanken konsequent fort, nutzt aber maschinelle Rechenkapazität und KI-basierte Algorithmen, um Regeln zu definieren und Schadprogramme zu identifizieren. Machine Learning (ML) ist ein Bereich der Künstlichen Intelligenz (siehe Grafik anbei). Es nutzt Algorithmen, um in großen verfügbaren Datenbeständen Muster zu erkennen. Diese Muster werden benutzt, um ein statistisches Modell zu berechnen – das sogenannte Trainieren des Modells. Dateien können mit Hilfe dieses Modells dann analysiert werden und das Modell bestimmt die statistische Wahrscheinlichkeit, mit der eine bestimmte Datei Schadsoftware enthält.
Neue Modelle werden kontinuierlich auf Basis neuer Daten berechnet. Diese neuen Daten können zum einen Exemplare neuer Schadsoftware beinhalten, zum anderen enthalten sie aber auch Feedback zur Performance. Angenommen, eine neue Art von Schadsoftware wird nicht erkannt, dann fließt diese Information in das Training ein und wird vom nächsten Modell automatisch berücksichtigt. Zudem können Experten dem Modell direkt Feedback geben, beispielsweise in Fällen, in denen die berechnete Malware-Wahrscheinlichkeit nicht eindeutig ist. Man spricht in diesem Fall vom aktiven Lernen (Active Learning). Das Ergebnis dieses Prozesses ist, das jedes folgende Modell weiter verfeinert wird und genauere Ergebnisse als das Vorgängermodell liefert. Bislang unbekannte Schadsoftware wird dadurch zuverlässiger erkannt.
Die Mensch-Maschine-Komponente |
---|
Damit ML-basierte Anti-Malware-Systeme gute Ergebnisse liefern können, kommt es auch auf ihre Trainer an. Die Algorithmen sind komplex, ihre Berechnungen manchmal fehleranfällig und nicht immer interpretierbar. Es ist daher unerlässlich, den lernenden Maschinen menschliche Expertise zur Seite zu stellen. Deshalb arbeiten beispielsweise ML-Engines bekannter Sicherheitsanbieter Hand in Hand mit menschlichen Sicherheitsexperten. Die Maschine lernt vom Menschen, weil auch der Mensch von der Maschine lernt. |