Mit Wide Data gegen blinde Flecken

Das Prinzip der zweiten Meinung und wie die KI davon profitiert

15. Januar 2025, 15:30 Uhr | Autorin: Jennifer Belissent / Redaktion: Diana Künstler
© AndryDj – shutterstock.com

Unvollständige Informationen oder homogene Datenquellen können die Entscheidungsfindung in Unternehmen stark einschränken. Auch bei KI-Modellen ist es wichtig, vielfältige Perspektiven einzubeziehen – denn nur wer auf Datenvielfalt setzt, kann präzise und wirklich faire KI-Ergebnisse erzielen.

In schwierigen Situationen wird oft eine zweite Meinung eingeholt, um Behauptungen zu überprüfen und Klarheit zu schaffen. Dabei geht es darum, eine Sachlage aus möglichst unterschiedlichen Perspektiven zu betrachten, um die bestmögliche Entscheidung zu treffen. Heutzutage beruhen immer mehr Entscheidungen auf Algorithmen: So sollen beispielsweise automatisierte Flugsysteme Passagiere auf der Grundlage von Daten sicher durch den Luftraum bringen, während Banksysteme mithilfe von Datenberechnungen über die Kreditvergabe an Verbraucher entscheiden. In solchen Fällen sind die Qualität und Genauigkeit der Daten von größter Bedeutung. Deshalb sollte auch bei Automatisierungen und modernen KI-Modellen der empfohlene Ansatz, eine „zweite Meinung“ einzuholen, berücksichtigt werden. Letztlich kommt es auf größere Datenvielfalt an.

Je vielfältiger die Daten, desto geringer ist das Risiko von Verzerrungen und sogenannten KI-Halluzinationen. Branchenanalysten schufen in diesem Zusammenhang bereits vor einigen Jahren den Begriff „Wide Data“, um sich von „Big Data“abzugrenzen. Statt sich allein auf die Menge der Daten zu konzentrieren, liegt der Fokus hier auf einer umfassenderen Analyse. Dabei werden Daten aus bisher unzugänglichen oder unerschlossenen Quellen von Partnern, Kunden, Datenanbietern oder der Automatisierung selbst hinzugezogen. Durch diese vielfältigen Daten entsteht ein breiterer und ausgewogener Überblick. Die potenziellen blinden Flecken, die bei der alleinigen Nutzung traditioneller Quellen auftreten können, lassen sich so besser vorbeugen.

Anbieter zum Thema

zu Matchmaker+

Datenvielfalt erschließen

Viele Unternehmen arbeiten bei Daten immer noch in Silos. Die Daten sind in verschiedenen Anwendungen oder Systemen isoliert und über die gesamte Organisation verstreut. Wenn Data-Marts für bestimmte Analysezwecke erstellt wurden, verstärken sie zusätzlich diese Fragmentierung. Der erste Schritt, um diese internen Datensilos aufzubrechen, ist es, unternehmensweite Daten-Repositories einzurichten. Dafür bedarf es wiederum klarer Richtlinien für den Datenzugriff und verfügbare passende Datenprodukte. Ein Datenkatalog oder -marktplatz für Endnutzer kann zudem die Daten deutlich leichter auffindbar und zugänglich machen.

Spezialisten verbringen 80 Prozent ihrer Zeit damit, die von Datensilos angerichtete Unordnung aufzuräumen.1

Eine Vielfalt an Daten ist hier nur möglich, wenn Unternehmen auch unstrukturierte Daten, wie E-Mails, Bilder und Sprachaufnahmen, einbeziehen und durch maschinell auswertbare Formate nutzbar machen. Moderne Datenplattformen speichern diese unstrukturierten Daten, indem sie sie in externen Speicherbereichen ablegen und über externe Tabellen referenzieren, ohne die Daten direkt auf die Plattform zu laden. Indem sie verschiedene Dateiformate unterstützen und SQL-Abfragen sowie benutzerdefinierte Funktionen (UDFs) anbieten, können diese Plattformen unstrukturierte Daten in untersuchbare und damit nutzbare Informationen verwandeln.

Unternehmensübergreifend mit Daten zusammenarbeiten

Data Clean Room, Aspekte
Vorteile von Data Clean Rooms: sichere Zusammenarbeit, erweiterte Datenvielfalt, Regelkonformität und Anonymität
© KI-generiert mit DALL-E

Während Datenplattformen Unternehmen dabei unterstützen, unstrukturierte Daten zu erfassen, spielt auch die Zusammenarbeit mit Daten über die eigenen Unternehmensgrenzen hinweg eine entscheidende Rolle für eine größere Datenvielfalt. So kooperieren Fahrzeughersteller wie Scania beispielsweise mit Flottenbetreibern zusammen, um deren Daten für die Optimierung des Produktdesigns und der Wartungsprozesse zu nutzen. Dabei stellt die Datensicherheit oft eine große Herausforderung dar, weshalb Unternehmen sorgfältig zwischen der Einhaltung von Vorschriften und dem Zugang zu möglichst vielfältigen Daten abwägen müssen.

Mangelhafte Datenqualität und -vielfalt können zu unzuverlässigen Ergebnissen in KI-Systemen führen. Beispielsweise zeigen Studien, dass bis zu 85 Prozent der KI-Projekte aufgrund schlechter Datenqualität scheitern.2

Die Nutzung von Data Clean Rooms bietet Unternehmen eine Lösung, die Zusammenarbeit datenschutzkonform zu gestalten. Diese kontrollierten Umgebungen erlauben es, sowohl unternehmensinternen Abteilungen als auch mehreren Partnerunternehmen sensible und regulierte Daten sicher auszutauschen – und dadurch die Datenvielfalt zu erweitern. Dabei bleibt der Datenschutz stets gewahrt, da personenbezogene Informationen anonymisiert und gesetzeskonform gespeichert werden.

Externe Datenbanken können als zusätzliche Datenquelle für mehr Datenvielfalt sorgen. Diese sind häufig über Datenmarktplätze zugänglich und ermöglichen es Unternehmen, zu jeglichen Themen ihre internen Daten um eine Bandbreite extern verfügbarer Daten zu erweitern. KI-Modelle können dann entweder direkt mit diesen externen Daten trainiert werden oder sie als Referenzquelle für die Datengenerierung bei der Retrieval Augmented Generation-Technik (RAG) nutzen.

Datenvielfalt selbst erzeugen

Neben der Zusammenarbeit mit anderen Unternehmen und der Nutzung externer Datenbanken lässt sich auch mit der Herstellung synthetischer Daten eine ausgewogenere Datenlage erreichen. Vermuten oder entdecken Unternehmen eine Verzerrung in den Ergebnissen ihrer KI-Modelle, können sie gezielt neue Daten zum Training der Modelle erzeugen, um unterrepräsentierte Merkmale zu verstärken. Dadurch können beispielsweise auf Vielfalt abgestimmte KI-Modelle (Diversity Finetuned, DFT) entstehen, mit denen sich die Darstellung von Minderheiten verbessern lässt.

In dem konkreten Beispiel eines KI-Modells eines Video-Redakteurs3 wurden synthetische Daten verwendet, die sich in der wahrgenommenen Hautfarbe sowie dem Geschlecht unterscheiden und aus verschiedenen Textaufforderungen generiert wurden. Die Prompts kombinierten Merkmale wie Ethnien, Geschlechter, Berufe und Altersgruppen. Solche DFT-Modelle berücksichtigen, im Gegensatz zu den Grundmodellen, sowohl mehr Personen mit wahrgenommener dunklerer Hautfarbe als auch mehr Frauen. Wird das Modell beispielsweise angewiesen, ein Bild einer Geschäftsperson zu erstellen, ist die Wahrscheinlichkeit deutlich höher, dass das Ergebnis eine Frau mit Kopftuch oder ein Arzt mit dunklerer Hautfarbe zeigt.

Mit vielfältigeren Daten bessere KI-Modelle erstellen

Jennifer Belissent, Snowflake
Jennifer Belissent, Principal Data Strategist bei Snowflake
© Snowflake

Wie bei manuellen Arbeitsschritten hilft das Mehraugenprinzip auch KI-Modellen, höherqualitativere Ergebnisse zu erzielen. Wie auch im echten Leben gilt: vier Augen sehen mehr als zwei – und das gilt besonders auch für KI-Modelle. Diese treffen Entscheidungen auf Basis der ihnen zur Verfügung stehenden Daten. Je vielfältiger und umfassender diese Datenquellen sind, desto präziser und aussagekräftiger werden die Ergebnisse. Für Unternehmen bedeutet das konkret, Datensilos aufzubrechen, unstrukturierte Daten nutzbar zu machen und externe Datenquellen gezielt einzubinden. Die Zusammenarbeit mit anderen Unternehmen sowie der Einsatz synthetischer Daten bieten zusätzliche Möglichkeiten, Verzerrungen zu minimieren und die Datenqualität zu steigern. So gelingt es ihnen, nicht nur leistungsfähigere KI-Modelle zu entwickeln, sondern auch eine verantwortungsvolle, zukunftsorientierte Datenstrategie umzusetzen.

1 https://alfapeople.com/de/wie-veraltete-prozesse-ihr-geschaeft-schaedigen-teil-2-datensilos/?utm_source=chatgpt.com
2 https://www.univio.com/de/blog/die-komplexe-welt-der-ki-fehlschlaege-wenn-kuenstliche-intelligenz-unerwartet-versagt/?utm_source=chatgpt.com
3 https://runwayml.com/research/mitigating-stereotypical-biases-in-text-to-image-generative-systems


Lesen Sie mehr zum Thema


Das könnte Sie auch interessieren

Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Snowflake

Weitere Artikel zu Künstliche Intelligenz

Weitere Artikel zu Künstliche Intelligenz (KI)