Wie sich sensible Daten in Zeiten von ChatGPT und Co. schützen lassen

Sicherer Umgang mit großen Sprachmodellen

Nathan Hamiel, Senior Director of Research bei Kudelski Security, erklärt in einem Statement, wie Unternehmen seiner Einschätzung zufolge richtig mit LLMs (Large Language Models) umgehen sollten.

Autor: Jörg Schröper • 28.6.2023 • ca. 2:55 Min

Nathan Hamiel ist Senior Director of Research bei Kudelski Security.

Inhalt

Sicherer Umgang mit großen Sprachmodellen
Tipps für den Umgang mit LLMs im Unternehmen

Anbieter wie OpenAI speichern personenbezogene Daten, um das Sprachmodell im Hintergrund zu trainieren. Unternehmen sollten sich daher bei der Verwendung von ChatGPT und anderen KI-Chatbots mit dem Datenschutz auseinandersetzen, so Hamiel in seinem Statement.

Sogenannte große Sprachmodelle (Large Language Models, LLMs) bieten große Risiken, auch für den Schutz vertraulicher Daten. Denn mit ChatGPT und Co. experimentieren nicht nur Entwickler, sondern Mitarbeiter aus allen möglichen Bereichen und Abteilungen. Sie benötigen dazu weder einen Grafikprozessor noch Kenntnisse in maschinellem Lernen. Jeder, der in der Lage ist, Python-Code zu kopieren und einzufügen, kann API-Anfragen an ein gehostetes LLM tätigen. Einzige Voraussetzung ist eine Kreditkarte. Es bringt daher nicht viel, die Nutzung von ChatGPT im Unternehmen zu verbieten.

Dies gilt laut Hamiel nicht nur für OpenAI. Auch andere Anbieter, Startups ebenso wie große Technologiekonzerne, haben mittlerweile eigene LLM-Lösungen entwickelt – mit unterschiedlichen Geschäftsmodellen sowie Nutzungs- und Datenschutzrichtlinien.

Wer experimentiert, verfolgt oft gar kein klares Ziel. Viele Anwender füttern ein LLM mit Daten – einfach um zu sehen, was passiert. Und vielleicht erwarten sie aufgrund des derzeitigen Hypes ein Wunder. Wie auch immer: Durch die unkontrollierte Nutzung können Geschäftsdaten in die Hände von Dritten gelangen, die damit künftige Modelle trainieren und verbessern. Der Drittanbieter kann noch so vertrauenswürdig sein. Er ist es, der die Anforderungen an die Speicherung und den Schutz der Daten diktiert. Und die unterscheiden sich bei Daten zum Trainieren und Verbessern von Modellen deutlich von den Anforderungen, die für ein normales Cloud-Computing-Konto gelten: Die Daten müssen optimiert werden und für das Training und die Auswertung durch den Menschen zur Verfügung stehen.

Verstöße gegen gesetzliche Vorschriften

Nicht alle Mitarbeiter sind mit den rechtlichen Anforderungen an ihr Unternehmen vertraut. Es kann schnell passieren, dass sie mit der Nutzung ihrer selbst erstellten Anwendungen gegen gesetzliche Vorschriften verstoßen – zum Beispiel indem sie Patientendaten mit einem LLM zusammenfassen. Zudem sind die meisten nicht erfahren darin, Entwicklungsstandards und damit verbundene Sicherheitsrichtlinien zu befolgen. Häufig schleichen sich Fehler in den Code ein. Dies kann beim Abrufen von Daten aus dem Internet, bei Python-Evaluationen oder – noch schlimmer – autonomen Experimenten mit nicht vertrauenswürdigen Daten passieren. Interne Experimente sind zwar weniger bedenklich als eine Anwendung, die offengelegt wird. Aber je nachdem, was der Code tut und welche Berechtigungen der ihn ausführende Nutzer hat, können sie dem Unternehmen schaden.

Darüber hinaus sind die Mitarbeiter – mit Ausnahme der Entwickler – nicht damit vertraut, ihre selbst erstellte Software zu bewerten. Ein System kann die richtige Antwort geben, aber aus den falschen Gründen. Oder die Antwort ist nicht korrekt, wirkt aber vertrauenswürdig, weil sie von einer KI stammt. Die meisten Anwender sind nicht in der Lage, solche Fehler im Design zu erkennen, was wiederum zu falschen Entscheidungen führen und geschäftsschädigend sein kann. Durch den Hype um die LLMs und ihre enorme Nutzerfreundlichkeit wird die Technologie in einer Vielzahl von Bereichen eingesetzt – obwohl sich viele Probleme damit gar nicht lösen lassen.

Es ist ein relativ bekanntes Phänomen: Wer viel Zeit in die Entwicklung eines Tools investiert hat, will es auch nutzen – selbst wenn es ineffektiv ist und den jeweiligen Prozess nicht optimiert. Da es sich um ein Experiment und nicht um ein formales Entwicklungsprojekt handelt, haben die Verantwortlichen die Anforderungen möglicherweise nicht korrekt erfasst. Beim Experimentieren werden häufig Aspekte übersehen, die für die Anwendung auf ein größeres Team oder Problem notwendig wären.