Business Intelligence

Große Datenmengen meistern mit Hadoop

28. Juli 2016, 9:57 Uhr | Autor: Knut Veltjens / Redaktion: Diana Künstler
Die Auswahl der passenden Big Data-Technologien orientiert sich an den Kriterien Datenvielfalt und Geschwindigkeit, mit der die Ergebnisse zur Verfügung stehen sollten.
© CGI/Forrester

Die Speicherung, Verarbeitung und Auswertung von unstrukturierten, großen Datenmengen ist prinzipiell eine Herausforderung. Doch es gibt Lösungen, die eine kostengünstige Analyse unterstützen. Das Open Source Framework Hadoop ist ein gutes Beispiel.

Unstrukturierte Daten fallen heute in großer Menge an. Beispiele sind Inhalte aus sozialen Netzwerken und Blogs, aber auch Maschinendaten aus der Fertigung oder Sensordaten. Bei der Verwaltung dieser Informationen stoßen herkömmliche relationale Datenbanken schnell an ihre Grenzen. Einen anderen Ansatz verfolgt das Open Source Framework Hadoop: Es nutzt für die Auswertung eine parallele Verarbeitung und speichert die Daten in nicht-relationalen Formaten.

Hadoop ist speziell für die Speicherung, Aufbereitung und Analyse von polystrukturierten großen Datenmengen, „Big Data“, konzipiert. Die wichtigsten Bestandteile sind das Hadoop Distributed File System (HDFS) und der „Map Reduce“-Algorithmus, der für die Aufteilung der Daten und die parallele Verarbeitung sorgt. HDFS untergliedert die Files in Datenblöcke fester Größe und speichert sie redundant auf die in einem Cluster organisierten Server-Knoten. Map Reduce zergliedert die Datenmenge in kleine Einheiten und bearbeitet sie in einer ersten Phase parallel und unabhängig voneinander. In den nächsten Schritten folgen, ebenfalls parallel, weitere Auswertungen und schließlich die Präsentation der Ergebnisse.

Einfache Nutzung
Eine Besonderheit bei der Arbeit mit Hadoop: Die Fachanwender selbst können die Daten verarbeiten und analysieren, ohne dazu auf die IT-Abteilung angewiesen zu sein. Eine der zentralen Fragen für die Verantwortlichen in den Fachbereichen ist, welche Aufgaben durch den Einsatz von Hadoop-Clustern gelöst werden können. Die generelle Antwort lautet: im Prinzip alle „berechenbaren“. Eine der Möglichkeiten dabei ist, den geeigneten Java-Programmcode zu erstellen. Manchmal ist das entsprechende Know-how in den Fachbereichen vorhanden. Ansonsten bieten IT-Dienstleister die notwendige Unterstützung. Als weitere Möglichkeit bietet sich der Einsatz der prozeduralen Hadoop-Erweiterung „Apache Pig“ an. Sie wurde 2006 von Yahoo entwickelt, um nicht-hauptberuflichen Programmierern die Arbeit mit Hadoop zu erleichtern. Einen wesentlichen Beitrag dazu liefert die Script-Sprache „Pig Latin“. Sie soll, ähnlich wie es die Office-Makrosprache VBA oder die Statistiksprache R in anderen Anwendungsszenarien getan haben, für IT-affine Mitarbeiter aus den Fachbereichen den Einstieg und den weiteren Einsatz von Hadoop vereinfachen. Pig Latin beschreibt die Verarbeitungsschritte, die das Pig Latin-Framework dann in Map Reduce-Jobs überführt. Eine weitere Option bietet „Oracle Big Data SQL.“ Mit einer einzelnen Abfrage ist es damit möglich, auf Daten in relationalen Datenbanken, in NoSQL-Datenbanken und in Hadoop zuzugreifen.

 

Anbieter zum Thema

zu Matchmaker+

  1. Große Datenmengen meistern mit Hadoop
  2. Ergänzung von Data Warehouses
  3. Expertenkommentar Exasol: Hadoop kombiniert mit In-Memory-Technologie

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu connect professional

Weitere Artikel zu UCaaS

Matchmaker+