Unternehmen, die mit KI-Initiativen erste Schritte machen möchten, sollten die Datenintegrität von Anfang an richtig gestalten. Denn der effektive Einsatz von Maschinellem Lernen setzt voraus, dass die Algorithmen im Vorfeld mit genauen, konsistenten und vollständigen Informationen versorgt werden.
Künstliche Intelligenz und Maschinelles Lernen versprechen enorme Effizienzsteigerungen, Automatisierung und wertvolle Erkenntnisse, die den Unternehmenswert steigern können. Maschinelles Lernen (ML) ist eine Teilmenge innerhalb der größeren Kategorie der Künstlichen Intelligenz (KI), die es Maschinen ermöglicht, durch die Verarbeitung großer Datenmengen ihre Muster zu lernen und letztendlich genaue Vorhersagen zu treffen, ohne dass explizite Programmieranweisungen erforderlich sind. Da die Technologie des Maschinellen Lernens auf Mengen zuverlässiger Daten angewiesen ist, um zu „lernen“, sind praktikables maschinelles Lernen und Datenintegrität untrennbar miteinander verbunden.
ML muss „trainiert“ werden, um den spezifischen Bereich, für den Vorhersagen gemacht werden sollen, zu verstehen. Mit anderen Worten: ML-Modelle müssen sich mit der Vergangenheit befassen, um zu verstehen, was in der Zukunft möglicherweise passieren wird. ML-Algorithmen benötigen einen ausreichend großen Datensatz, aus dem sie statistisch gültige Vorhersagen ableiten können. Für die meisten Unternehmen ist es in der Regel kein Problem, eine ausreichende Datenmenge zu beschaffen. Das eigentliche Problem liegt für die meisten in der Datenqualität und den isolierten Informationen, die nicht mit anderen Datenquellen im Unternehmen verbunden sind und denen kontextuelle Informationen , wie zum Beispiel Location Intelligence (LI) und sonstige Datenanreicherungen fehlen. Das eigentliche Problem liegt also vielfach in der Datenintegrität.
Datenintegrität besteht generell aus vier Säulen:
Unternehmen, die mit KI/ML-Initiativen erste Schritte machen, müssen die Datenintegrität von Anfang an richtig gestalten. Der effektive Einsatz von Maschinellem Lernen setzt voraus, dass die Algorithmen im Vorfeld mit genauen, konsistenten und vollständigen Informationen versorgt werden.
In Informatikkreisen gibt es das Sprichwort „Garbage In, Garbage Out“ oder kurz „GIGO“. Es gibt zwei Gründe, warum dies besonders auf KI/ML zutrifft. Erstens: Wenn Modelle für Maschinelles Lernen auf Datensätzen trainiert werden, denen es an Integrität mangelt, werden sie ihre beabsichtigten Ergebnisse nicht erreichen und können sogar fehlerhafte, ungenaue Vorhersagen liefern, die zu schlechten Ergebnissen führen. Aus „Garbage in, garbage out“ wird also „Garbage in, garbage out... forever“, weil das ML-Modell aus falschen oder unvollständigen Daten „gelernt“ hat.
Das zweite Problem mit dem GIGO-Paradigma im Zusammenhang mit KI/ML ist eine Frage des Umfangs. Befasst man sich mit der Genauigkeit und Vollständigkeit eines einzelnen Kundendatensatzes, dann hat eine schlechte Datenqualität eine relativ begrenzte Reichweite. Analysiert man ein breites Spektrum von Kunden, gewinnt schlechte Datenqualität an Bedeutung. Mit KI/ML haben Unternehmen die Möglichkeit, Daten in großem Umfang zu nutzen, um sowohl operative als auch strategische Geschäftsentscheidungen zu treffen. „Garbage in“ in großem Umfang kann zu „Garbage out“ in großem Umfang führen. Für Unternehmen, die sich auf eine KI/ML-Reise begeben, oder für diejenigen, die den Prozess bereits begonnen haben, ist dies ein entscheidender Punkt. Datenintegrität ist wichtiger denn je.
Genauso gu lösst sich dieses Argument auf den Kopf stellen. Man kann die Herausforderung der Datenintegrität positiv sehen. Während Mitbewerber mit schlechter Datenqualität, isolierten Informationen und mangelndem Kontextreichtum zu kämpfen haben, besteht die Möglichkeit, die Führung bei der Nutzung von KI/ML zu übernehmen, um einen langfristigen Wettbewerbsvorteil zu erzielen. Dies gilt für Unternehmen aus verschiedenen Branchen wie Telekommunikation, Banken und Finanzen, Versicherungen, Gesundheitswesen und Einzelhandel.
Versicherungsunternehmen nutzen Maschinelles Lernen beispielsweise, um bessere Entscheidungen über die Preisgestaltung von Policen zu treffen, Risiken auf einer detaillierteren Ebene als je zuvor zu verstehen und potenzielle Fälle von Betrug und Missbrauch zu erkennen. Sie nutzen auch KI/ML mit Location Intelligence, um Kunden vor großen Wetterereignissen proaktiv zu kontaktieren, um sie somit vor den potenziellen Gefahren zu warnen und um Schadenregulierer so zu positionieren, dass sie schnell auf Versicherungsnehmer reagieren können, die nach einer drohenden Katastrophe wahrscheinlich dringend Hilfe benötigen.
Banken verbessern ihre Fähigkeit, Kreditrisiken einzuschätzen und Immobilienbewertungen zu bestimmen, indem sie erweiterte Standortinformationen und die Verknüpfung mit Datensätzen Dritter nutzen. Durch den Einsatz von Maschinellem Lernen mit erweiterten Daten und Cloud-nativer Location-Intelligence-Technologie haben viele Banking-Unternehmen die Zeit für die Erstellung vertrauenswürdiger Daten innerhalb kürzester Zeit.
Einzelhändler nutzen ML, um Kaufmuster besser zu analysieren und das Verhalten ihrer Kunden zu verstehen. KI/ML hilft Unternehmen, die Standortauswahl zu verbessern, indem sie interne Daten mit einer Vielzahl von standortbasierten Variablen verbindet, die zur Berechnung von Einzugsgebieten, zur Analyse von Verkehrsmustern und zum Verständnis von Bevölkerungen mit ihren Lebensstilpräferenzen, Einkommensniveaus und Kaufgewohnheiten verwendet werden können. Durch den Einsatz von Datenintegritäts-Lösungen erhalten Einzelhändler eine einheitliche Sicht auf ihre Kunden, reduzieren die Duplizierung von Informationen in ihren CRM- und ERP-Systemen und reichern die Verbraucherinformationen an, um ein besseres Verständnis für die Kunden zu erhalten, die sie bedienen.
Eine ganzheitliche Sichtweise der Datenintegrität bedeutet, dass sie Genauigkeit, Konsistenz und Kontext umfasst. Wenn Daten genau und konsistent sind und wenn sie den geografischen Kontext und Daten von Dritten einbeziehen, sind Unternehmen besser in der Lage, „die Wahrheit, die ganze Wahrheit und nichts als die Wahrheit“ zu erkennen. Und es stehen ihnen mehr Daten zur Verfügung als je zuvor. Laut einem aktuellen Precisely-Webcast wurden 2019 weltweit schätzungsweise 45 Zettabyte an Daten erzeugt; bis 2024 wird diese Zahl 143 Zettabyte erreichen. Unternehmen, die mit dieser Datenflut konfrontiert werden, stehen vor größeren Herausforderungen als je zuvor. Laut Forbes sind 84 Prozent der CEOs besorgt über die Integrität der Daten, die sie für ihre Entscheidungen verwenden. 68 Prozent geben an, dass sie sich durch die Existenz von Datensilos in ihren Unternehmen negativ beeinflusst fühlen. Mehr als 50 Prozent lassen sich die Vorteile von „Location Intelligence“ entgehen, die den Schlüssel zu Tausenden von Variablen in Verbindung mit einem bestimmten Standort enthält und wertvolle Erkenntnisse über den Verkehr und das Verbraucherverhalten liefern kann.