Es muss sich also etwas ändern, wenn Data Lakes Unternehmen in Zukunft einen Mehrwert bringen und nicht zum Data Swamp verkommen sollen – sie müssen wieder stärker zu ihrem ursprünglichen Zweck zurückkehren. Dafür brauchen sie Data-Delivery-Services, die Möglichkeit für Nutzer, schnell und einfach auf die Daten im Data Lake zuzugreifen, um sie anschließend für ihre Zwecke zu verwenden. Solche Services müssen verschiedene Arten und Protokolle der Datenbereitstellung in Echtzeit unterstützen sowie auf Requests und automatische Event-basierte Anfragen reagieren können.
Möglich wird dies für Unternehmen, indem sie auf eine moderne, dezentrale Datenarchitektur auf Basis von Datenvirtualisierung setzen. Letztere kreiert eine einzige logische Schicht zur Integration, Management und Bereitstellung von Daten – also eine Data Fabric – die in der Lage ist, alle Unternehmensdaten, ob aus Data Lakes oder anderen Speicherorten, abzubilden. So lassen sich Datensilos auflösen, da über eine einzige Plattform alle Daten zur Verfügung stehen. Aus demselben Grund verschwindet auch die vermeintliche Notwendigkeit für Duplikate.
Dabei sind die Daten selbst nicht in Bewegung, aber Nutzer können alle verfügbaren Daten im Datenkatalog suchen, finden und verstehen. Insbesondere dieser einfache Zugang zu den Datenbeständen im Data Lake fehlt häufig. Stattdessen müssen Nutzer entweder konkret wissen, welche Daten sie suchen, oder verbringen sehr viel Zeit damit, diese zu finden. Ein Datenkatalog, den eine ausgereifte Datenvirtualisierungs-Plattformen bietet, minimiert diesen Aufwand und ermöglicht Nutzern, zeitnah mit allen benötigten Daten zu arbeiten und sie zu explorieren – der eigentliche Zweck eines Data Lakes. Des Weiteren lässt sich durch eine Data Fabric die Data Governance zentral implementieren und so sicherstellen, dass Daten vertrauenswürdig sind.
Fazit: Reagieren, bevor der Data Lake zum Data Swamp wird
Unternehmen können ihre Data Lakes weiterhin nutzen. Die Arbeit sie zu erstellen, zu integrieren und zu füllen sollte nicht umsonst gewesen sein. Vielerorts mangelt es ihnen jedoch an semantischer Konsistenz und verwalteten Metadaten und damit erfüllen sie nicht die Bedürfnisse der (potenziellen) Nutzer aus dem Business. Und je länger dieser Zustand anhält, desto unbrauchbarer ist der Data Lake. Damit sie einen Mehrwert bieten, müssen Data Lakes mehr sein als nur bodenlosen Speicherorte. Die Erweiterung durch eine virtuelle Datenschicht behebt nicht nur inhärente Probleme von Data Lakes, sondern ermöglicht auch Zugang zu Unternehmensdaten außerhalb des Data Lakes beziehungsweise zwischen Data Lakes. Damit können Unternehmen Datensilos überwinden und ihre Daten schnell und einfach nutzen, um aus ihnen relevante und wertvolle Insights zu generieren.
Otto Neuer ist Regional VP und General Manager bei Denodo.