Bildanalyse für Content Security

Pixel unter der Lupe

29. Juni 2005, 23:06 Uhr | Carsten Dietrich/wg Dipl.-Math. Carsten Dietrich ist Senior Manager Content Security Operations bei Internet Security Systems.

Unternehmensinterne und gesetzliche Auflagen fordern in ver- stärktem Maße den nachweisbar sicheren Umgang mit Informa- tionen. Einen Problemfall stellen Informationen dar, die in Bilddateien eingebettet sind. Damit erschließt sich der Bildanalyse ein neues Aufgabenfeld. Bildanalyse-Tools kommen hierbei im LAN, am Web- oder E-Mail-Gateway oder im Rahmen von Internet- Scanning-Diensten zum Einsatz. Die verbleibenden Hürden sind allerdings hoch.

Die herkömmlichen Anwendungsfälle der Bildanalyse – zum Beispiel in der Industrie,
Medizintechnik oder für die Texterkennung per OCR-Software (Optical Character Re-cognition, siehe
Kasten) – sind in der Regel stark spezialisiert und für eine Aufgabe optimiert. Mit zunehmender
Verbreitung von computergestützten Arbeitsplätzen sowie deren Vernetzung und Anbindung an das
Internet rückt ein neues Aufgabenfeld ins Rampenlicht: Durch teils gesetzliche Auflagen müssen
Unternehmen sicherstellen, dass manche Informationen nur bestimmten Mitarbeitern zugänglich sind
oder das Unternehmen nicht verlassen. Zu solchen Regulatorien zählen zum Beispiel der amerikanische
Sarbanes-Oxley Act von 2002, CMS Acceptable Risk Safeguard, der Health Insurance Portability and
Accountability Act (HIPAA), die International Trade in Arms Regulations oder auch Basel II. Um
solche Bestimmungen einzuhalten, gewinnen so genannte Compliance-Produkte immer mehr an Bedeutung.
Jedoch fällt sehr schnell auf, dass herkömmliche Methoden der Textanalyse allein nicht ausreichen,
um vertrauliche Daten zuverlässig zu erkennen und ein Versenden per E-Mail zu verhindern. Denn die
meisten Unternehmen arbeiten längst auch mit digitalen Bilddaten.

Für die Bildverarbeitung im Rahmen von Compliance-Tools ergeben sich verschiedene
Überwachungsbereiche:

LAN: Intranet-Scanner durchsuchen die Rechner im LAN, um unternehmenswichtige
Daten aufzuspüren. In einem zweiten Schritt lässt sich manuell oder automatisiert prüfen, ob das
Speichern der gefundenen Daten der Richtlinie entspricht.

Gateway: Web-, E-Mail- und Peer-to-Peer-Filter sollen sicherstellen, dass
Mitarbeiter keine vertraulichen Informationen absichtlich oder unabsichtlich versenden.

Internet: Dienstleister stellen fest, ob bereits vertrauliche Informationen
wie Konstruktionspläne ein Unternehmen verlassen haben und im Internet auftauchen. Zudem kann man
das Internet nach Raubkopien durchsuchen (lassen), um sein geistiges Eigentum zu schützen.

Symbole und Logos erkennen

Für die Umsetzung solcher Aufgaben steht eine Reihe von Bildverarbeitungsverfahren zur
Verfügung. Beispielsweise ist es möglich, Symbole oder Logos in Bildern ausfindig zu machen. Dazu
dienen in der Regel Mustererkennungsmethoden: Ein Tool extrahiert aus dem zu suchenden Symbol oder
Logo Merkmale wie Kantenübergänge, Farbe etc. Die Qualität der Erkennung steigt mit der Zahl der
verfügbaren Exemplare des Logos. Die Analyselösung normiert die Exemplare vor der
Merkmalsextraktion bezüglich der Größe. Während der Suche wird das Bild mit den extrahierten
Merkmalen systematisch abgetastet und die Übereinstimmung berechnet. Um eine größenunabhängige
Suche durchführen zu können, finden für die Suche verschiedene Skalierungen Verwendung. Das
Verfahren ist von Nutzen, um zum Beispiel den Verbreitungsgrad einer Marke zu ermitteln – oder auch
deren Missbrauch. Hierzu durchsuchen Crawler das Internet systematisch und analysieren alle Bilder.
Da das Verfahren auch Symbole und Logos findet, die vom Original abweichen, lassen sich so auch
gefälschte oder verfremdete Logos entdecken (siehe Bild auf Seite 49).

Die Erkennung pornografischer Bildinhalte kommt beim Scannen des lokalen Netzwerks und beim
Überwachen der Gateways zum Einsatz. Dies soll sicherstellen, dass keine verbotenen Inhalte im
Unternehmensnetz vorhanden sind oder über die Gateways hineingelangen. Gerade der Bereich
Pornografie ist sehr sensibel, da hier Unternehmen große Imageschäden erleiden können oder – im
Bereich Kinderpornografie – sogar strafrechtliche Konsequenzen drohen.

Die meisten Implementierungen sind allerdings nicht in der Lage, pornografische Bildinhalte
direkt aufzuspüren, sondern beschränken sich auf die Erkennung von nackter Haut. Hierzu durchsucht
ein Tool das Bild nach großen zusammenhängenden Hautpartien. Das Erkennen von Haut setzt
Standardannahmen über Hautfarbe und Textur voraus – was zu spektakulären Fehlklassifizierungen
führen kann. Daher scheidet der Einsatz dieses Verfahrens auch von vornherein bei
Schwarz-Weiß-Bildern aus. Um die Qualität und insbesondere die Erkennungsrate zu erhöhen, ist das
Verfahren mit einer Gesichtsdetektion kombinierbar. Findet das Werkzeug ein Gesicht, so
verdeutlicht das zum einen die Proportionen des Bildes, zum anderen lässt sich eine Probe der
Hautfarbe und Textur entnehmen. Dies erlaubt es, gezielter nach Hautpartien zu suchen und diese zum
Beispiel auch in grünstichigen Fotos zu finden. Außerdem reduziert dies das Overblocking
(übermäßige Ausfiltern) von Porträtaufnahmen, die ja ebenfalls großteils aus nackter Haut
bestehen.

Zum Schutz vertraulicher Informationen kommen häufig digitale Fingerprints zum Einsatz. Einfache
Verfahren berechnen lediglich einen Hash (beispielsweise MD5) der kompletten Datei, sind jedoch
selbst gegen kleinste Veränderungen nicht robust. So bleiben Dokumente mit kleinen Änderungen oder
Bilder, die in andere Formate konvertiert wurden, unerkannt. Komplexere Verfahren liefern jedoch
Fingerprints, die gegen Konvertierung und sogar kleine Änderungen invariant (also unempfindlich)
sind. Auch diese Verfahren arbeiten merkmalsbasiert und vergleichen nicht Pixel für Pixel. Als
Merkmale ziehen sie beispielsweise Farbhistogramme, das Seitenverhältnis und Kantenübergänge heran.
Für die Extraktion der Merkmale, die als Fingerprint hinterlegt werden, teilen sie das Bild in
Quadranten auf. Dies ermöglicht eine Invarianz gegen das Ändern der Größe oder einzelner Pixel
sowie gegen das Abschneiden von Randbereichen. Da das Analyse-Tool hier mit den Bild-
beziehungsweise Farbinformationen direkt arbeitet, spielt auch das Bildformat keine Rolle. Um
eingescannte Texte oder Screenshots von vertraulichen Texten wiederzuerkennen, bietet sich der
Einsatz eines OCR-Tools an.

Ein weiteres interessantes Verfahren zur Identifikation von Bildern stellen digitale
Wasserzeichen dar. Es versteckt Copyright-Informationen in den Bilddaten. Diese versteckten
Informationen sind für den menschlichen Betrachter nicht zu erkennen. Sie bleiben jedoch auch nach
der Konvertierung in andere Bildformate wieder auffindbar – selbst im Fall von verlustbehafteter
Komprimierung wie beim JPEG-Verfahren. Dies gilt sogar für Ausschnitte des Originalbildes. Ziel ist
es, Bilder eindeutig zu identifizieren. Verfahren für digitale Wasserzeichen bilden einen
Spezialfall der Steganografie (verborgene Übermittlung von Informationen). Es gibt eine Vielzahl
meist kommerzieller Verfahren zum Einbringen von Wasserzeichen in alle Formen von digitalen Daten.
Meist sind die Verfahren speziell auf den Medientyp angepasst (Bild, Video, Audio etc.), da es sich
immer um eine Gratwanderung zwischen Robustheit und Unsichtbarkeit des Wasserzeichens handelt.
Damit ein Wasserzeichen auch eine JPEG-Kompression überlebt – also sehr robust ist – muss man in
Kauf nehmen, dass es nicht mehr vollkommen unsichtbar bleibt. Denn die Kompression eliminiert
gerade unsichtbare Pixel-Unterschiede.

Problem Rechenleistung

Die Rechenleistung der Computer wächst stetig – aber trotzdem ist sie nach wie vor die größte
Einschränkung für einen umfassenden Einsatz der Bildverarbeitung in Standard-Security-Produkten:
Eine effektive Bildanalyse benötigt nicht nur sehr viel Prozessorzeit, sondern auch sehr viel
Hauptspeicher. Bilder mit einer Größe von mehreren MByte sind nichts Ungewöhnliches – ein
Vielfaches der durchschnittlichen Größe reiner Textdokumente.

Da Bilddateien sehr groß sind und dies im Internet zu langen Ladezeiten führt, komprimieren
Anwender die Bilder oft zu Lasten der Bildqualität. Hierunter leidet die Qualität heutiger
Bildanalyseverfahren sehr stark, was ihre Zuverlässigkeit einschränkt. Insbesondere bei den
Verfahren zur Objekterkennung – darunter OCR – muss man bei Kompression mit deutlich schlechteren
Ergebnissen rechnen.

Durch Bildanalyseverfahren lassen sich auch vertrauliche Textinformationen so in Bildern
verstecken, dass weder der menschliche Betrachter noch Analyseverfahren sie entdecken
(Steganografie). Während bei Wasserzeichen das Augenmerk besonders auf der Robustheit liegt, steht
hier die Unsichtbarkeit der versteckten Information im Vordergrund. Lediglich mit Kenntnis des
verwendeten Verfahrens und gegebenenfalls des Passworts kann der Anwender Informationen wieder
extrahieren.

Trotz der vielen interessanten Einsatzgebiete und Verfahren steckt die Bildanalyse nach wie vor
in ihren Kinderschuhen. Von einer allgemeinen inhaltlichen Bewertung eines Bildes – zum Beispiel
dem Erkennen von Bäumen oder gar von ganzen Szenen wie etwa einer Lichtung im Wald – ist der Stand
der Technik noch weit entfernt.


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+