Zum Inhalt springen

Große Performance-Unterschiede

Autor:Redaktion connect-professional • 27.3.2009 • ca. 1:20 Min

Schon im ersten Durchgang ergaben sich erhebliche Unterschiede in den Laufzeiten, die sich bei der Verarbeitung größerer Datenmengen noch verstärkten. Dem SAS Enterprise Miner gelang insgesamt die beste Modellqualität. Die Bedienung der Suite geht trotz des großen Funktionsumfangs nach einer kurzen Eingewöhnungsphase relativ rasch von der Hand. Allerdings erfordert das Erstellen qualitativ hochwertiger Modelle Fingerspitzengefühl bei der Parametrisierung und ein gewisses Maß an Erfahrung. Die Ergebnisqualität bei Rapid Miner fiel im Vergleich ab, insbesondere die Übertragbarkeit der Modelle erwies sich als gering. Ein erheblicher Nachteil besteht darin, dass Rapid Miner keine Möglichkeit bietet, die mit unterschiedlichen Verfahren erstellten Modelle automatisch zu vergleichen. KXEN lieferte eine gute Modellqualität und zeigte sich zudem bei der Berechnung als sehr schnell. Mit dem Ansatz des Self-Acting Data Mining weist KXEN das modernste Gesamtkonzept auf, bei dem die Datenvorbereitung nahezu automatisch abläuft. Beim Test mit großen Datenvolumina veränderte sich die Performance von KXEN Analytic Framework kaum. Bei anderen Produkten gestaltete sich hingegen bereits das Einlesen der Daten problematisch und erforderte teilweise langwierige manuelle Eingriffe. In SAP Net­Weaver etwa musste für jedes Attribut ein separates Infoobjekt angelegt werden – bei 450 Variablen ein erheblicher Aufwand. Die Resultate und die Laufzeit waren hier guter Durchschnitt. Allerdings bietet SAP nur sehr rudimentäre Unterstützung beim Vergleich verschiedener Modelle. Vorteilhaft allerdings ist die Integration der DM-Funktionalität in die BI-Umgebung von SAP: Der Analyseprozessdesigner APD hat vollen Zugriff auf die mächtigen Funktionen der Datentransformation. Die Berechnung deskriptiver Statistiken und der Aufbau grafischer Darstellungen nahm bei einigen Produkten sehr viel Zeit in Anspruch. Die Laufzeiten der eigentlichen DM-Analyse schließlich stiegen je nach Verfahren häufig überproportional an. Insbesondere Rapid Miner fiel auf: mit sehr langen Laufzeiten von mehr als drei Stunden bis zu Abbrüchen wegen Hauptspeicherüberlaufs. Mit KXEN nahm die Analyse des kompletten Datensatzes hingegen weniger als zehn Minuten in Anspruch.