Hadoop setzt sich durch

Große Mengen (volume) von Daten unterschiedlicher Struktur (variety), die schnell verarbeitet werden müssen (velocity) – mit diesen drei Merkmalen haben Marktforscher das Phänomen der »Big Data« schon vor zehn Jahren definiert. Eine technologische Neuerung stellt Welker zufolge nun jedoch die von der Apache Software Foundation betreute Technologie Hadoop dar. Diese quelloffene Software erlaubt es, Daten auch in sehr großen Mengen kostengünstig zu speichern und vorzuverarbeiten. »Die Hersteller sind aufgesprungen und bieten hierfür Produkte an«, hat Welker beobachtet. Der Trend zu Hadoop gilt für Hersteller von Datenbanken, Integrationswerkzeugen und Frontend-Tools.
»Die verwendeten Verfahren zur Analyse sind bekannt und bewährt, sie stammen aus der Statistik und der Künstlichen-Intelligenz-Forschung«, weiß Marcus Dill, Geschäftsführer des Berliner IT-Dienstleisters Mayato, der etwa 50 Mitarbeiter beschäftigt und ganz auf Business Intelligence ausgerichtet ist – von Beratung und Technologiebewertung bis zur Konzeption und Umsetzung von Lösungen. Viele Technologieanbieter verbinden seinem Eindruck zufolge Business-Intelligence- und Suchverfahren, um textuelle Informationen in Analysen einzubeziehen.
»Bei einem Big-Data-System kann ich Daten einfach sammeln und ablegen, ohne mir zuvor über die Struktur Gedanken machen zu müssen«, erläutert Welker. Diese Frage stelle sich dann, wenn man Auswertungen fahren möchte. Diese seien sehr flexibel möglich, ein Endanwender könne sie allerdings heute noch nicht durchführen. Bei Big Data geht es in Welkers Sicht typischerweise um nicht-relationale Daten etwa aus Weblogs oder sozialen Netzwerken, von RFID-Chips auf Waren oder Sensoren in Produktionsanlagen, die bisher aufgrund der großen Datenmenge nicht für analytischen Belange genutzt wurden. Im Unterschied zum klassischen Data Warehouse seien diese Informationen unaufbereitet und von geringerer Dichte und Qualität. Solche Informationen lassen sich seiner Kenntnis zufolge mit Big-Data-Appliances um einen Faktor zwischen fünf und fünfzig günstiger speichern als in einem Data Warehouse.