Startseite > Netzwerke & IT-Infrastruktur > Zehn Milliarden Dateien in 43 Minuten

Durchbruch

Zehn Milliarden Dateien in 43 Minuten

25. Juli 2011, 14:04 Uhr | Elke von Rekowski

In Unternehmen und Organisationen fallen immer mehr Daten an (Foto: envfx - Fotolia.com).

Ein wichtiger Schritt zu künftigen Speichersystemen mit extrem großem Datenbestand ist jetzt IBM-Forschern gelungen. Sie haben zehn Milliarden Dateien auf einem einzigen System in nur 43 Minuten gescannt und erfasst.

Damit wurde der bestehende Rekord um den Faktor 37 verbessert: er lag bei einer Milliarde Dateien in drei Stunden. 1998 haben die Forscher des Unternehmens das hochskalierbarer geclusterte parallele Dateisystem mit dem Namen General Parallel File System (GPFS) vorgestellt. Es wurde stetig weiterentwickelt, um den jetzigen Durchbruch zu ermöglichen. GPFS ist ein wichtiger Schritt für das weitere Wachstum von Speicherleistung und -kapazität, während die Administrationskosten nicht weiter steigen sollen.

Mit dieser Verbesserung sollen Organisationen besser mit dem explosionsartigen Datenwachstum durch eine Vielzahl von Transaktionen und digitalen Sensoren und anderen datenliefernden Geräten fertigwerden können, die in heutigen intelligenten Infrastrukturen entstehen. Damit ist dieses Werkzeug besonders geeignet für Anwendungen, die sehr schnellen Zugang zu großen und größten Datenmengen benötigen, wie etwas Data Mining-Lösungen, um etwas Kundenkaufverhalten besser erkennen zu können.

Mit Blick auf das extrem hohe Datenwachstum in fast allen Branchen wurden die Daten hier auf einer einzigen Speicherplattform konsolidert. So wird der hohe Verwaltungsaufwand verhindert, der bei separater Datenhaltung auf verteilten Plattformen entstehen würde. Damit können Datenmanagement-Aufgaben dramatisch vereinfacht und verringert werden. Denn dadurch lassen sich mehr Informationen unter einer einheitlichen Technologie speichern, anstatt mehr und mehr zusätzlichen Speicher beschaffen zu müssen.

Die aktuelle Spitzenleistung wurde mit GPFS und einem Cluster von zehn Achtkern-Serversystemen mit SSD-Speicher erreicht. Der GPFS-Algorithmus ermöglicht die komplette Ausnutzung aller Prozessorkerne in allen Maschinen und allen Aufgabenphasen. Daten lesen, sortieren und Anwenden der Datenmanagement-Vorgaberegeln. GPFS konnte die eingesetzte SSD-Appliance mit nur 6,8 Terabyte an Kapazität bei hervorragender Random-Leistung und hohen Datentransferraten ausnutzen, um die Speicher-Metadaten abzulegen. Bei gleichmäßig hoher Leistung konnte die Appliance hunderte von Millionen an Daten-I/O-Operationen ausführen, während GPFS unter den zehn Milliarden Dateien auf dem System den richtigen, gewünschten Satz an Dateien identifizierte, auswählte und sortierte. »Der Nachweis der GPFS-Skalierbarkeit eröffnet den Weg für neue Produkte, die die Anforderungen einer Multi-Zettabyte-Welt adressieren«, sagt Doug Balog, Vice President, IBM Speichersysteme. Somit habe die Innovation hat das Potential, sehr große Datenumgebungen auf einer einzigen Plattform zu vereinen, und dabei die Datenmanagementaufgaben dramatisch zu vereinfachen und zu reduzieren - wie Datenablage, Migration und Backup individueller Dateien.