Big Data mit Microsoft

Einmal Datensee und zurück

1. April 2016, 13:04 Uhr | Autor: Markus Raatz / Redaktion: Diana Künstler

Fortsetzung des Artikels von Teil 2

Hadoop – neue Heimat für polystrukturierte Daten

Für eine kostengünstigere Speicherung macht man sich die Tatsache zunutze, dass solche polystrukturierten Daten vor dem Speichern nicht extra aufbereitet werden müssen. Im Gegenteil: Bei einer unpassenden Strukturierung könnten sogar wertvolle Informationen verlorengehen. Daher werden diese Daten nicht in Datenbanken, sondern unstrukturiert und kostensparend in "Data Lakes" abgelegt. Microsoft greift hierzu auf das bewährte Open-Source System von Hadoop zurück. Eine Auslagerung in die Cloud ist jederzeit und flexibel möglich, aber nicht von Anfang an zwingend. Die Entscheidung für die Speicherung und künftige Big Data Nutzung ist also nicht mehr unmittelbar an eine Entscheidung für oder gegen eine Cloudnutzung gebunden, diese unternehmensinterne Hürde entfällt.

Website Protokolle zum Beispiel könnten ungeordnet einfach in Hadoop abgelegt werden. Der Anwender hat dabei die freie Wahl, Hadoop separat und als Open Source lokal zu betreiben, in der Cloud bei einem beliebigen Anbieter zu mieten oder aber die integrierte Lösung von Microsoft, HDInsight, und die Microsoft Cloud zu nutzen.

PolyBase - die Brücke zu Hadoop
Nicht nur möglichst kostengünstige Speichermöglichkeiten, auch die Analyse der großen Datenmengen ist für IT-Abteilungen kleinerer Unternehmen eine Herausforderung, da häufig die Kompetenzen noch nicht aufgebaut werden konnten und es keine ausgebildeten Data Scientisten in den Unternehmen gibt. Wie passt ein SQL Server, der vielen doch als "Triumph der Struktur" gilt, zu riesigen Datenseen, der Domäne der Data Scientisten? Mit Hilfe eines neuen Features - PolyBase - können die auf Hadoop unstrukturiert abgelegten Daten über SQL-Abfragen abgerufen und analysiert werden. Mit dieser Übersetzung in die vertraute Abfragesprache schafft Microsoft den Übergang zwischen relationaler Datenbank und polystrukturierten Daten. Für kleinere Unternehmen entfällt somit eine weitere Hürde: Es muss nicht sofort ein Data Scientist beschäftigt werden, um die einmal auf Hadoop gespeicherten Daten auch nutzen zu können.

Anbieter zum Thema

zu Matchmaker+

  1. Einmal Datensee und zurück
  2. Big Data-Nutzung: Anforderungen und Hürden
  3. Hadoop – neue Heimat für polystrukturierte Daten
  4. Programmiersprache R als Bestandteil des Servers

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Microsoft GmbH

Weitere Artikel zu Microsoft Deutschland GmbH

Weitere Artikel zu Server, Datacenter

Weitere Artikel zu Public Cloud

Matchmaker+