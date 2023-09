Mit der Vast Data Platform will das Storage-Unternehmen Vast Data eine neue Plattform bieten, um KI-gestützte Entdeckungen voranzutreiben. Nutzer sollen über die Datenplattform einfacher ihre Daten speichern, strukturieren und verarbeiten können, um so Künstliche Intelligenz für sich zu entwickeln.

Vast Data hat seine neue Datenplattform vorgestellt, die die Grundlage für KI-gestützte Entdeckungen bilden soll. Die Vast Data Platform ist das globale Dateninfrastrukturangebot von Vast, das Storage-, Datenbank- und virtualisierte Compute-Engine-Services in einem skalierbaren System vereinen soll, das von Grund auf für die Zukunft der KI entwickelt wurde.

Während generative KI und Large Language Models (LLMs) die ersten Fähigkeiten der Künstlichen Intelligenz gezeigt haben, beschränken sich LLMs auf die Ausführung von Routineaufgaben wie Geschäftsberichte oder das Aufsagen bereits bekannter Informationen. Das wahre Versprechen der KI wird sich erfüllen, wenn Maschinen den Prozess der Entdeckung durch Erfassen, Synthetisieren und Lernen aus Daten nachbilden können – und so in wenigen Tagen ein Spezialisierungsniveau erreichen, für das früher Jahrzehnte nötig waren.

Die Ära der KI-gesteuerten Entdeckungen wird das Streben der Menschheit nach der Lösung ihrer größten Herausforderungen beschleunigen. KI kann der Industrie dabei helfen, Therapien für Krankheiten und Krebs zu finden, neue Wege zur Bewältigung des Klimawandels zu beschreiten oder revolutionäre Ansätze für die Landwirtschaft zu entwickeln. Sie kann ebenso helfen, neue Bereiche der Wissenschaft und Mathematik zu erschließen, die die Welt noch gar nicht in Betracht gezogen hat.

Unternehmen konzentrieren sich daher zunehmend auf KI-Anwendungen. Obwohl sie dabei Technologien aus verschiedenen Public- oder Private-Cloud-Angeboten zusammenfügen können, benötigen sie eine Datenplattform, die die Datenverwaltung und -verarbeitung in einem einheitlichen Stack vereinfacht. Die heute existierenden Datenplattformen sind bei globalen Unternehmen beliebt, da sie die Komplexität der Infrastrukturbereitstellung für Business Intelligence- und Reporting-Anwendungen erheblich reduzieren. Sie sind aber nicht für die Anforderungen neuer Deep Learning-Anwendungen ausgelegt. Die nächste Generation der KI-Infrastruktur muss parallelen Dateizugriff, GPU-optimierte Leistung für das Training neuronaler Netze und Inferenzen auf unstrukturierten Daten sowie einen globalen Namensraum bieten, der hybride Multi-Cloud- und Edge-Umgebungen abdeckt. Dies alles sollte vereint sein in einem einfach zu verwaltenden Angebot, um föderiertes Deep Learning zu ermöglichen.

Einführung in die VAST Data Platform

Die Vast Data Platform wurde mit Blick auf das gesamte Datenspektrum natürlicher Daten entwickelt – unstrukturierte und strukturierte Datentypen in Form von Videos, Bildern, freiem Text, Datenströmen und Instrumentendaten. Die Plattform ermöglicht es, Daten, die aus der ganzen Welt stammen, in Echtzeit mit einem globalen Datenkorpus zu verarbeiten. Der Ansatz zielt darauf ab, die Lücke zwischen ereignis- und datengesteuerten Architekturen zu schließen, indem er die folgenden Möglichkeiten bietet:

Zugriff und Verarbeitung von Daten in jedem Private- oder großen Public-Cloud-Rechenzentrum

Natürliche Daten verstehen, indem eine abfragbare semantische Schicht in die Daten selbst eingebettet wird

Kontinuierliche und rekursive Berechnung von Daten in Echtzeit, die sich mit jeder Interaktion weiterentwickelt

Vast will natürliche Daten, Metadaten, Funktionen und Trigger in den Mittelpunkt seiner Dsitributed-Systems-Architektur Vast Disaggregated Shared Everythig (DASE) stellen. DASE soll die Datengrundlage für Deep Learning schaffen, indem es Kompromisse in Bezug auf Leistung, Kapazität, Skalierung, Einfachheit und Ausfallsicherheit beseitigt, um das Trainieren von Modellen auf allen Daten eines Unternehmens zu ermöglichen. Indem Nutzer dem System nun Logik hinzufügen können, können Maschinen kontinuierlich und rekursiv Daten aus der natürlichen Welt anreichern und verstehen.

Einheitlicher globaler Datenspeicher, Datenbank und KI-Computing-Engine

Um Daten aus der natürlichen Welt zu erfassen und bereitzustellen, entwickelte Vast zunächst die Grundlage seiner Plattform, den Vast DataStore, eine skalierbare Speicherarchitektur für unstrukturierte Daten, die das Storage Tiering eliminiert. Der DataStore ist eine Enterprise Network Attached Storage-Plattform mit Datei- und Objektspeicher-Schnittstellen, die den Anforderungen von KI-Computing-Architekturen wie Nvidia DGX SuperPOD AI Supercomputer sowie Big-Data- und HPC-Plattformen gerecht wird. Der DataStore im Exabyte-Maßstab wurde so entwickelt, um die Archivierungswirtschaftlichkeit in die Flash-Infrastruktur zu bringen – und ist damit auch für Archivierungsanwendungen geeignet. Die Überwindung der Kostenfrage für Flash-Speicher war entscheidend, um die Grundlage für Deep Learning für Unternehmenskunden zu schaffen, die Modelle auf ihren eigenen Datenbeständen trainieren wollen.

Um unstrukturierte natürliche Daten zu strukturieren, hat Vast mit der Einführung der Vast DataBase eine semantische Datenbankschicht nativ in das System integriert. Durch die Anwendung der Vereinfachung strukturierter Daten hat Vast die Kompromisse zwischen Transaktionen (zur Erfassung und Katalogisierung natürlicher Daten in Echtzeit) und Analysen (zur Analyse und Korrelation von Daten in Echtzeit) gelöst. Hierbei kamen erstmals Prinzipien zur Anwendung, um die Eigenschaften einer Datenbank, eines Data Warehouse und eines Data Lake in einem einfachen, verteilten und einheitlichen Datenbankmanagementsystem zu kombinieren. Die DataBase wurde für eine schnelle Datenerfassung und schnelle Abfragen in beliebigem Umfang entwickelt.

Auf der Grundlage von synthetisierten strukturierten und unstrukturierten Daten ermöglicht die Data Platform die Verfeinerung und Anreicherung unstrukturierter Rohdaten in strukturierte, abfragbare Informationen mit zusätzlicher Unterstützung von Funktionen und Triggern. Die Vast DataEngine ist eine globale Funktionsausführungs-Engine, die Rechenzentren und Cloud-Regionen zu einem globalen Computing-Framework konsolidiert. Die Engine unterstützt gängige Programmiersprachen wie SQL und Python und führt ein System für Ereignisbenachrichtigungen sowie materialisiertes und reproduzierbares Modelltraining ein, das die Verwaltung von KI-Pipelines erleichtert.

Das letzte Element der Data Platform-Strategie ist der Vast DataSpace, ein globaler Namensraum, der es jedem Standort ermöglicht, Daten von jedem Standort aus mit hoher Leistung zu speichern, abzurufen und zu verarbeiten, während gleichzeitig strenge Konsistenz über jeden Zugriffspunkt hinweg erzwungen wird. Mit dem DataSpace ist die Data Platform in lokalen Rechenzentren und Edge-Umgebungen einsetzbar und erweitert den DataSpace-Zugang jetzt auch auf Public-Cloud-Plattformen wie AWS, Microsoft Azure und Google Cloud.

Diese globale, datendefinierte Computing-Plattform verfolgt einen neuen Ansatz, um unstrukturierte Daten mit strukturierten Daten zu verbinden, indem sie diese Daten in einem einzigen, einheitlichen System speichert, verarbeitet und verteilt.

„Wir konsolidieren ganze Kategorien von IT-Infrastrukturen, um die nächste Ära groß angelegter Datenberechnungen zu ermöglichen, indem wir die Fähigkeit zur Erstellung und Katalogisierung von Erkenntnissen aus natürlichen Daten auf globaler Ebene bündeln“, erklärt Renen Hallak, CEO und Mitbegründer von Vast Data.

„Während wir unsere Vision für die Zukunft der KI-Infrastruktur enthüllen, gibt es für Partner keinen besseren Zeitpunkt, bei Vast zu investieren“, sagt Gregg Machon, Vice President, Worldwide Channels bei Vast Data. „Mit der Vast Data Platform eröffnen wir unseren Partnern völlig neue Kundensegmente und neue Marktzugangswege, um ihre Dienste zu erweitern – von vor Ort über den Edge bis hin zur Cloud. Es ist eine aufregende Zeit, VASTronaut 2.0-zertifiziert zu werden.“

Der DataStore, die DataBase und der DataSpace sind bereits jetzt im Rahmen der Vast Data Platform allgemein verfügbar, die DataEngine wird im Jahr 2024 zur Verfügung stehen.

Lesen sie mehr zum Thema