Zwar ist Hadoop quasi ein technisches Synonym für Big Data, doch Dodlek bekennt: »Die wenigsten Kunden suchen nach einer Hadoop-Lösung. Sie haben ein Business-Problem, das sie lösen wollen.« Zunächst geht es um die intendierten Anwendungsfälle. Aus der Bestandsaufnahme ergibt sich dann, mit welchen Tools und Partnern man für das anstehende Projekt am besten zusammenarbeitet. Oft übernehmen Systemintegratoren dann die Projektleitung und beteiligen sich an der erforderlichen Entwicklungsarbeit.
Data-Warehouse-Umgebungen sind über Jahrzehnte gewachsen. Hadoop fungiert nun als Ergänzung: »Man puffert dort Daten und extrahiert Informationen, die man später ins Warehouse lädt«, erläutert Dodlek. Bei den Kunden geht es typischerweise darum, Daten im Terabyte-Bereich in kurzer Zeit analysieren zu können. Für Sicherheit und Verfügbarkeit sorgt das Dateisystem, das MapR für die eigene Hadoop-Distribution entwickelt hat. Der Kunde bemerkt laut Dodlek diesen Wechsel des zugrundeliegenden Systems nicht, weil es mit dem ursprünglichen Dateisystem von Apache Hadoop binärkompatibel ist.
Mit Herstellern im Bereich Datenintegration wie Informatica und Datenanalyse wie dem Marktführer SAS oder dem kalifornischen Start-up Skytree gibt es Partnerschaften, um den Austausch mit anderen Datenhaltungssystemen und -werkzeugen zu erleichtern. Dafür sind Schnittstellen bereits eingebaut, etwa über den Datenbankstandard ODBC, hinzu kommen dann Zertifizierungen für bestimmte Produkte. Im Moment verhandelt MapR mit SAP im Hinblick auf die In-Memory-Technologie Hana.
In der Hadoop-Welt sind indes auch eigenständige quelloffene Analysetechnologien entstanden. Für Ad-hoc-Abfragen auf großen Datenmengen hat Cloudera das massiv-parallel arbeitende Werkzeug Impala geschaffen und MapR das Pendant Drill. Beide unterstützen die relationale Datenbanksprache SQL für nicht-relationale Systeme wie Hadoop. Für fortgeschrittene In-Memory-Analysen findet die Software Spark der Open-Source-Organisation Apache zunehmendes Interesse. Ebenfalls über Apache verfügbar ist die Klassenbibliothek Mahout für Maschinelles Lernen, die Analysen etwa für Klassifikationsaufgaben unterstützt. Statistik nach Wunsch ermöglicht die unter Open-Source-Lizenz verfügbare Programmiersprache R, die inzwischen auch von vielen kommerziellen Software-Herstellern unterstützt wird.