Daten konsolidieren

Open-Source-Produkte: Mit Talend die Datenqualität verbessern

9. Oktober 2008, 16:52 Uhr | Bernd Reder

Mit Talend-Data-Quality steht eine Open-Source-Suite zur Verfügung, die Datenintegration, Daten-Profiling und Datenqualität kombiniert. Das Produkt identifiziert »schmutzige« Daten wie Spitznamen, doppelte Datensätze und abgekürzte Straßenadressen und korrigiert diese mit Hilfe von Referenzdaten.

Talend-Data-Quality erkennt sogar, ob Bob, Robby und Berti Abkürzungen für den Namen Robert sind. In der Vergangenheit hätten solche Daten womöglich zur Mehrfach-Aussendung einer Nachricht an denselben Adressaten geführt. Solche Aktionen verärgern (potenzielle) Kunden und torpedieren den Erfolg von E-Mail-Marketingaktionen.

Das Produkt ermöglicht es dem Anwender, Adressen, Telefonnummern, Schreibweisen und Abkürzungen von Datensätzen zu überprüfen. Dazu nutzt die Software Mailing-Datenbanken in vielen Ländern, darunter beispielsweise Datenbanken des U.S. Postal Services.

So erkennt Talend-Data-Quality beispielsweise, dass es sich Hajo Schulte, Ahornweg 17, und Hans-Joachim Schulte, Ahornweg 17, um ein und dieselbe Person handelt.

Zu den Schlüsselfunktionen von Talend-Data-Quality zählen Daten-Profiling, Datenidentifizierung, Datenbereinigung und Datenbereicherung. Das Daten-Profiling liefert Schnappschüsse und historische Informationen über die Datenqualität der Organisation. Dies ermöglicht es, eine Verbesserung oder Verschlechterung der Datenbestände zu messen.

Die Datenidentifizierung erkennt Satz für Satz Daten guter und schlechter Qualität. Die Datenbereinigung säubert falsche, unvollständige und nicht konsistente Daten, indem sie die Informationen mit Referenzdaten vergleich.

Die Funktion Datenbereicherung schließlich ergänzt Daten um weitere Informationen, beispielsweise geografische Daten und Kreditinformationen. Das macht die Daten wertvoller, denn sie lassen sich nun beispielsweise für zielgerichtete Mailings an Empfänger einer spezifischen Einkommensgruppe nutzen.

Talend-Data-Quality steht als Standalone-Produkt oder als zusätzliches Feature der Talend-Integration-Suite zur Verfügung.


Jetzt kostenfreie Newsletter bestellen!

Matchmaker+