Hadoop als Schlüsseltechnologie
- Big Data bereichern IT-Lösungen
- Hadoop als Schlüsseltechnologie
- Anwendungen in vielen Bereichen
Am häufigsten eingesetzt wird für Big Data neuerdings jedoch eine quelloffene Technologie namens Hadoop, die auf Google zurückgeht und sich unter den Fittichen der Apache Software Foundation befindet. Im Kern handelt es sich dabei um ein leistungsfähiges Dateisystem mit zugehöriger Abfragesprache.
Kaum eine größere Ankündigung von Datenbank- oder Business-Intelligence-Produkten versäumt es, deren nun erreichte Hadoop-Kompatibilität herauszustellen – ob es sich um große Anbieter wie Microsoft oder um kleine wie Jaspersoft handelt. IBM setzt noch eines drauf und arbeitet in dem Watson-Projekt daran, Hadoop mit Technologien der Künstlichen Intelligenz zu bündeln, um mit Komplettsystemen, die eine Neuauflage der alten Expertensysteme darstellen, etwa Ärzte im Gesundheitswesen bei ihren Entscheidungen zu unterstützen.
Brian Hopkins, Analyst bei dem Marktforschungsunternehmen Forrester Research, nennt aus allgemeiner Sicht als technologische Bausteine für die Handhabung von Big Data Verfahren zur Verarbeitung von Datenströmen sowie verteilte Dateisysteme und Datenbanken, die auf extrem hohe Skalierung ausgerichtet sind und dafür die strengen Regeln relationaler Systeme samt der zugehörigen Sprache SQL aufgeben. Hinzu kommen Verfahren für Abfrage und Analyse sowie in gewissem Umfang zur transaktionellen Verarbeitung. Ein Bespiel dafür ist das Framework Map Reduce für parallele Berechnungen auf Server-Clustern, das Google entwickelt hat und das für die Datenhaltungstechnologie Hadoop vorliegt. Für Data-Warehouse-Lösungen gibt es das Framework Hive. Datenströme lassen sich mit einem Werkzeug wie Infosphere Streams von IBM auch ohne Speicherung auswerten.
Voll ausgereift sind diese Big-Data-Softwaresysteme zwar noch nicht, aber die Voraussetzungen scheinen günstig. Die Hardware-Plattformen lassen sich aus preisgünstiger Massenware zusammenstellen und Datenanalysen mit parallelen Verfahren durchführen, wie sie der Warehouse-Spezialist Teradata schon vor Jahren entwickelt hat. Erfassung und Ablage der Big Data werfen keine grundsätzlichen Probleme auf.
Die bereits verfügbaren Big-Data-Technologien sind Hopkins zufolge gut geeignet für komplexe Informationen, wie sie auf Webseiten und Blogs oder in E-Mails vorkommen und für Internet-Firmen wie Google, Yahoo und Facebook besonders relevant sind. Datenströme, die von RFID-Chips oder medizinischen Geräten erzeugt werden, lassen sich damit ebenfalls handhaben, in gewisser Weise ferner Bild- und Ton-Dateien.