Wer über Big Data redet, kommt schnell auf Hadoop zu sprechen. Das ist ein freies Open-Source-Framework auf Basis von Java und dem Map-Reduce-Algorithmus von Google. Die Aufgabe von Hadoop ist es, sehr große Datenmengen effizient in Clustern zu verarbeiten. Das ist möglich, weil die Rechenleistung der einzelnen Knotenpunkte im Cluster zur Berechnung der Anfragen mit genutzt werden. Der Dienst kann installiert oder über die Cloud betrieben werden. Ein großer Vorteil von Hadoop liegt in der kosteneffektiven Umsetzung. Dank Java läuft Hadoop auf beinahe jeder Hardware.
Kotorov meint dazu: »Ich denke, dass Hadoop zumindest für das nächste Jahrzehnt Antriebsfeder bleibt. Es entstehen natürlich immer neue Technologien. Wir haben schon viele Konzepte der Datenspeicherung gesehen, wie zum Beispiel hierarchische Datenbanken, relationale Datenbanken, Cubes, In-Memory, Spaltendatenbanken. Diese sind alle entstanden, um immer größere und vielfältigere Datenmengen zu unterstützen.«
Um die wachsenden Mengen an unstrukturierten Daten zu speichern, zu verarbeiten und zu analysieren, setzten zwar viele Unternehmen auf Hadoop. Allerdings sei der Schulungsaufwand relativ hoch, was einem breiten Einsatz im Unternehmen entgegenstehe, schränkt Jörgensen ein. »Abhilfe schafft die Verbindung von Hadoop mit dem Self-Service-Anaytics-Tool Tableau über entsprechende Konnektoren. Damit müssen die Anwender keine Datenbankabfragesprachen beherrschen, um schnelle Abfragen zu tätigen, auch der Umgang mit XML-Dateien ist wesentlich einfacher.«
Die an der University Berkeley entwickelte Daten-Analyse-Plattform Spark erfreut sich zunehmender Popularität und wird inzwischen von vielen als ernsthafte Konkurrenz für Hadoop angesehen. Apache Spark setzt im Gegensatz zu Hadoop ganz auf In-Memory-Datenverarbeitung. Dabei werden die zu analysierenden Daten direkt im Arbeitsspeicher der Cluster-Knoten gespeichert und verarbeitet. Dieses Verfahren verschafft enorme Geschwindigkeitsvorteile gegenüber konventionellen Systemen, bei denen Daten zunächst vom Festspeicher geladen werden müssen. Erst wenn die Datenmengen zu groß werden, lagert auch Spark diese auf die Festplatten aus.