Die schon seit längerer Zeit eingesetzten Deduplizierungstechniken vermeiden eine Mehrfachspeicherung von denselben Daten. Algorithmen auf Dateiebene können allerdings eine doppelte Datenhaltung nur dann erkennen, wenn die Datei auch tatsächlich denselben Namen hat. Schwierig wird das, wenn Mitarbeiter immer wieder bearbeitete Office-Dokumente im Dateinamen mit unterschiedlichen Versionsnummern verändern. Darum existieren auch Deduplizierungslösungen auf Blockebene, die Daten unabhängig von Metadaten untersuchen und zu einem gewissen Prozentsatz die Dubletten herausfiltern. Allerdings benötigen solche Systeme sehr viel Leistung und Zeit. Sie sind daher eher für die Deduplizierung von Backups geeignet und weniger für hochleistungsfähigen, schnellen Primärspeicher.
Die künstliche Intelligenz (KI) und ihre unterschiedlichen Ausprägungen haben dies jedoch geändert. Im Zusammenspiel mit den speziellen Ascend-Chips, die in Huawei Primärspeichersystemen integriert sind und mit einer leistungsfähigen Mustererkennung, die sich auf KI beziehungsweise Deep-Learning-Technik stützt, ist die Leistungsfähigkeit und damit die Möglichkeit gegeben, eine Deduplizierung auch im Primärspeichersystem auf Blockebene zu realisieren. Wichtig dabei ist, dass die Leistung der Deduplizierung extrem hoch ist, denn sie muss in Echtzeit erfolgen. Huawei beispielsweise hat eine solche Technik in seinen Dorado V6 Flashspeichern fest integriert.
Der minimal angestrebte Deduplikationsfaktor drei scheint im ersten Moment nicht besonders hoch. Entscheidend ist aber, dass dies ein Minimalwert ist, der sich um ein Mehrfaches vergrößern kann. An dieser Stelle kommen Speicherspezialisten wie MTI Technology ins Spiel, die vor einer Integration hochperformanter Speichersysteme mit integrierter Deduplizierung eine tiefgehende Untersuchung im Unternehmen und im Datacenter durchführen. Mittels geeigneter Tools können die Spezialisten genau bestimmen, welche und wie viele der Daten voraussichtlich deduplizierungsfähig sind. Ist beispielsweise ein hoher Datenzuwachs in den File-Services zu erkennen, kann das Dorado-System in Echtzeit eine hohe Deduplizierungsrate erreichen. Nach der Installation des Systems beginnt die KI-unterstützte Mustererkennung zu lernen und immer besser zu deduplizieren. Die Folge daraus: Große Datenbanken, bei denen eine Depublizierung nicht möglich ist, haben dadurch mehr Ressourcen zur Verfügung. Es erfolgt eine Konsolidierung, die Unternehmen trotz der Erstinvestition in KI-unterstützte Primärspeichersysteme mittel- und langfristig viel Ressourcen und Budget spart.
Robert Meiners ist Team Lead PreSales Germany bei MTI Technology, www.mti.com/de.