Datenbankmanagement

Storage, Datenbanken und Big Data

3. April 2017, 11:38 Uhr | Autor: Clemens Siebler, Redaktion: Markus Kien
In Zeiten von IoT und Big Data sind neue Speicherstrategien gefragt.
© dmbaker-123rf

Mit der richtigen Speicherarchitektur soll sich die Datenbank-Performance um ein Vielfaches steigern lassen. Dabei kommen Flash-Speicher und Cloud-Lösungen zum Einsatz – gesteuert über eine übergeordnete Verwaltungsebene.

Die wesentliche Aufgabe eines Datenbanksystems ist es, große Datenmengen effizient, widerspruchsfrei und dauerhaft zu speichern und benötigte Teilmengen in bedarfsgerechten Darstellungsformen bereitzustellen. Klassische relationale Datenbanksysteme stoßen im Umfeld von Big Data an ihre Grenzen. Denn große Workloads im Petabyte-Bereich erfordern schnellen Storage, leistungsstarke Server und damit meist auch viele CPU (Central Processing Unit)-Lizenzen. Bei der Datenverarbeitung spielen künftig vor allem NoSQL Datenbanken und Hadoop eine wichtige Rolle.

NoSQL arbeitet nicht mit einem relationalen Ansatz und verwendet daher auch keine Tabellenschemata. Solche Ansätze spielen ihre Vorteile zum Beispiel bei unstrukturierten, nicht relational zugreifbaren Daten aus – etwa in den Bereichen Kommunikation oder soziale Medien. Hadoop ist hingegen ein in Java programmiertes Software-Framework, mithilfe dessen Anwender rechenintensive Prozesse mit großen Datenmengen auf Server-Clustern abarbeiten können.

Das Fundament einer jeden Data Analytics-Lösung ist der Speicher. Dort werden nicht nur die großen Mengen an Daten zusammengeführt, die im Unternehmen anfallen. Ein hoch performanter Speicher sorgt auch dafür, dass Analysetools schnell auf die Datenmassen zugreifen können. Für ein erfolgreiches Data Analytics-Projekt muss der Datenbank-Storage auf sicheren Füßen stehen. Wackelt er, wirkt sich das auf die gesamte Performance und Sicherheit aus. Deshalb lohnt es sich, dem Thema Speicher von Anfang an besondere Beachtung zu schenken.

Hinzu kommt: Daten kommen aus ganz unterschiedlichen Quellen und liegen in vielfältigen Formaten vor. Um aus ihnen so viel Potenzial wie möglich zu gewinnen, müssen sie in einem zentralen Pool zusammenfließen, sodass sie für übergreifende Analysen zur Verfügung stehen. Um einen solchen Data Lake zu managen und sowohl strukturierte als auch unstrukturierte Daten zu analysieren, greifen immer mehr Unternehmen auf die Open Source-Plattform Hadoop zurück – und wählen damit einen kostengünstigen Einstieg in die Big Data-Welt.

Die Plattform mit dem gelben Elefanten als Logo gibt den Rahmen vor, mit dem Anwender eine hochskalierbare Infrastruktur für die Analyse großer Mengen an Daten aufbauen können. Dabei bilden zwei Elemente den Kern: das verteilte und hochverfügbare Hadoop File System (HDFS) und die Map Reduce, eine Programmbibliothek für die parallele Verarbeitung der im HDFS abgelegten Dateien. Neben der Skalierungsfähigkeit liegt der große Vorteil eines um Hadoop ergänzten Gesamtsystems in seiner Fehlertoleranz: Ausfälle einzelner Maschinen werden toleriert und durch die anderen Rechner aufgefangen.

Dabei müssen Unternehmen beachten, dass Plattenlaufwerke die fehleranfälligsten Komponenten einer Hadoop-Architektur sind. Bis eine Platte ausfällt, ist es eine Frage der Zeit. Und: Je größer das Cluster, desto wahrscheinlicher ist dieser Ausfall. In einem HDFS wird jedes Mal ein neuer Job angestoßen, wenn eine Disk zu Schaden kommt. Dadurch entstehen lästige und kostenintensive Ausfallzeiten. Abhilfe schaffen clevere neue Mechanismen, um die fehlenden Daten innerhalb des Speichersystems neu zu berechnen, sodass der Hadoop Cluster diese Tätigkeit nicht leisten muss.

Anbieter zum Thema

zu Matchmaker+

  1. Storage, Datenbanken und Big Data
  2. Performance-Booster Flash trifft Cloud
  3. Expertenkommentar: Storage effizient machen

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu NetApp Deutschland GmbH

Weitere Artikel zu Server, Datacenter

Weitere Artikel zu Storage

Matchmaker+