Zum Inhalt springen

Zunehmende Automatisierung

Autor:Redaktion connect-professional • 27.3.2009 • ca. 1:35 Min

Für die Studie »Data-Mining-Software 2009« hat das Beratungshaus mayato zwölf Angebote einem Funktionsvergleich unterzogen. Vier der Pakete durchliefen außerdem einen detaillierten Praxistest: die kommerzielle Suite SAS Enterprise Miner, die Open-Source-Software Rapid Miner, das Werkzeug für Self-Acting Data Mining KXEN Analytic Framework sowie die Software SAP NetWeaver 7.0 Data Mining Workbench. Der Praxistest und die Funktionsbewertung orientierten sich am Ablauf des klassischen DM-Prozesses: Am Anfang steht die Selektion der Daten, die von der Software durch unterschiedliche Eingabeformate oder Funktionen zur Auswahl von Datensätzen unterstützt wird. Die Exploration der Daten ermöglicht dann die Berechnung von statistischen Kennzahlen oder die grafische Aufbereitung und Präsentation. Noch vor der eigentlichen Analyse liegt die umfangreichste Aufgabe in einem DM-Projekt: Die Modifikation der Daten. Dafür bieten viele Tools eine Reihe von Funktionen zur Zusammenführung, Anreicherung und Kodierung der Daten bis hin zur komplexen Berechnung zusätzlicher Kennzahlen. Spezialisierte DM-Werkzeuge decken meist nicht alle Mustertypen (siehe Kasten auf Seite 23) ab, sodass damit nur bestimmte Fragestellungen angegangen werden können. Zu den Auswahlkriterien für DM-Software gehören hohe Stabilität, der unkomplizierte Umgang mit großen Datenmengen, die Automatisierung von Standardaufgaben, die Qualität und Interpretierbarkeit der Ergebnisse sowie nicht zuletzt einfache Bedienbarkeit ohne lange Einarbeitungszeiten. Auch auf die Effizienz des Analyseprozesses, die Anwendbarkeit der Programme sowie die daraus resultierenden Gesamtkosten kommt es an. Klar erkennbar: Der Stellenwert der Automatisierung nimmt zu. Denn mit anschwellenden Datenmengen und wachsendem Analysebedarf steigt der Anteil an Standardaufgaben wie Datenvorverarbeitung und Parametrisierung. Und durch deren Automatisierung können mehr Analyseergebnisse in kürzerer Zeit erzielt werden. Dadurch verbessert sich die Effizienz des gesamten Analyseprozesses erheblich, da mehr Zeit für anspruchsvollere Aufgaben wie die Ergebnisinterpretation verbleibt – Tätigkeiten, in denen der menschliche Analyst den automatisierten Verfahren auf absehbare Zeit noch überlegen sein wird. Die genannten Produkte wurden anhand von Testdatensätzen detailliert auf ihre Praxistauglichkeit geprüft, zunächst mittels einer überschaubaren Testdatei mit 30000 Datensätzen und 15 Variablen. Insbesondere das Systemverhalten bei großen Datenmengen wurde anschließend durch Einlesen eines umfangreichen Volumens mit 100000 Datensätzen und 450 Variablen gemessen. Die Palette der Benchmarkdaten enthielt eine Reihe typischer Datenqualitätsprobleme, mit denen DM-Tools umgehen müssen: beispielsweise korrelierende Variablen, fehlende Werte oder Ausreißer.