Die Datenbasis nimmt eine immer wichtigere Rolle ein. Es gilt, Datenmassen übersichtlich zu sammeln, zu analysieren und schnell zu verarbeiten. Zwei Konzepte kommen dabei zum Tragen, die Unterschiede mit sich bringen, doch gerade in Kombination ihr Potenzial entfalten: Data Warehouse und Data Lake.
Je vernetzter und intelligenter die Welt wird, desto schneller wächst die weltweite Datenmenge. In der modernen Fertigung bedeutet steht Industrie 4.0 für diesen Trend. Anlagen lassen sich zentralisiert aus der Ferne überwachen und verwalten, die Produktion ist eng mit Informations- und Kommunikationstechnik verzahnt. Und durch Fertigungsdaten können Unternehmen nahezu in Echtzeit auf veränderte Rahmenbedingungen reagieren und ihre Produktion entsprechend optimieren.
Die Basis einer solchen Smart Factory ist wiederum das Internet of Things (IoT). Indem Unternehmen Maschinen, Sensoren und weitere smarte Geräte vernetzen, können sie Prozessdaten generieren. Gleichzeitig entsteht eine große Zahl an unstrukturierten Daten wie beispielsweise zu Feuchtigkeit, Leistung, Temperatur, Auslastung und Umdrehungen, die für genauere Aussagen korreliert werden können. Und da Geschäftsanwendungen und Produktion kontinuierlich Daten austauschen, können sich dem Unternehmen Wege erschließen, um auf dieser Basis Prozesse zu optimieren. Zum Beispiel durch Predictive Maintenance: Zum diesem Zweck werden Sensordaten in Echtzeit ausgelesen, die Maschine überwacht und der Wartungsbedarf vorhergesagt. Bauteile lassen sich so austauschen, bevor sie einen Maschinenausfall auslösen. Zusätzlich können Unternehmen Lieferketten mit Hilfe vernetzter Geräte kontrollieren und zudem mit den Daten neue Geschäftsmodelle entwickeln.
Ein intelligentes IoT-System bietet viele Möglichkeiten – doch erfordert es auch eine passende Basis. Neben einer neuen Denkweise – wider Datensilos und für eine intelligente Datennutzung – ist eine leistungsfähige Big-Data-Infrastruktur notwendig. Dabei kommt es vor allem auf die Leistung des entsprechenden Systems an: Es muss unterschiedlichste Datentypen und -formate schnell auswerten können. Denn um beispielsweise die Produktion zu steuern, werden Daten aus zahlreichen Quellen verwendet, wie etwa von Maschinen und übergreifenden Prozessen. Doch auch die Integration von Maschinendaten, Systemdaten aus ERP, CRM und Business Intelligence (BI) sowie Wetterdaten liefert gegebenenfalls weitere Erkenntnisse.
Die Datenbasis kann dabei ein sogenanntes Data Warehouse oder ein Data Lake sein. Der Einsatz orientiert sich dabei am jeweiligen Anwendungsfall, idealerweise nutzen Unternehmen aber beide Systemmodelle. Doch es gibt Unterschiede zu beachten. Ein Data Warehouse lässt sich – wie der Name bereits sagt – als eine Art Lagerhalle vorstellen, in der eine große Menge an Daten aus unterschiedlichsten Quellen gesammelt werden. Diese unternehmensweiten Daten stammen aus verschiedenen Systemen, sie werden harmonisiert und in vorab definierten Datenbanken organisiert. Um sie in SQL-Tabellen zu speichern, bereinigt, standardisiert und passt das System sie darüber hinaus an.
Die Daten so aufzubereiten und in den Datenbanken zu ordnen, kann anfangs aufwendig sein. Allerdings haben Anwender die Möglichkeit, über ihre BI-Berichte oder ihr Online-Analytical-Processing-System (OLAP-System) auf diese Informationen zuzugreifen, die vorstrukturierten Daten auszuwerten, Korrelationen zu erkennen und Entscheidungen zu treffen. Doch in einem IoT-System entstehen sehr große und sich schnell ändernde Datenmassen. Ein Data Warehouse kann daher an seine Grenzen stoßen. Denn alle der kleinteiligen Daten zahlreicher Sensoren aufzubereiten und zu strukturieren, ist zu aufwendig, um wirtschaftlich sinnvoll zu sein.
Die Stärke eines Data Warehouse ist, Daten zu homogenisieren und zu integrieren. Ein Date Lake hingegen ist flexibel und skalierbar — und somit vor allem für große Datenmengen und IoT-Datenströme geeignet. Der Schwerpunkt liegt in der Integration vielfältiger Datenquellen. Beim Speichern muss – im Gegensatz zum Data Warehouse – noch nicht feststehen, um welche Daten es sich im Detail handelt und wofür sie gespeichert werden.
Alle Daten laufen in ihrer Rohform in dem „Datensee“ zusammen, der sie als abteilungsübergreifendes Repository sammelt. Sie werden weder bereinigt, validiert noch transformiert. Das System arbeitet aber nicht mit den Originaldaten, sondern nur mit Kopien. Das kann vor allem der intelligenten Datennutzung in zukünftigen Projekten zugutekommen. Wiederum lässt sich die Datenbasis aufgrund des Rohformats für viele verschiedene künftige Formen der Analyse im IoT-Umfeld nutzen.
Der Data Lake kann sowohl text- als auch zahlenbasierte Informationen wie etwa Sensordaten, Text-Dokumente, Videos oder Bilder aufnehmen. Dabei können die Daten lokal oder in der Cloud gespeichert sein. Der größte Unterschied zum Data Warehouse: Da die Daten im See in ihrer Rohform vorliegen, werden sie erst bei Bedarf gefiltert und je nach Kontext für die geforderte Struktur aufbereitet. Damit Unternehmen diese unstrukturierten oder semistrukturierten Daten im Data Warehouse nutzen könnten, müssten sie diese vorab strukturieren. Das erzeugt Kosten, noch bevor klar ist, ob die Daten wirklich gebraucht werden. Das verteilte Dateisystem des Data Lakes kann daher geeigneter für IoT-Systeme sein, da selten benötigte Daten auf günstigeren Speichersystemen liegen können.
Aber vor allem eine Kombination ist für Unternehmen interessant. Die Konzepte Data Lake und Data Warehouse ergänzen einander, bedienen jedoch unterschiedliche Anwendungsfälle. Das Data Warehouse eignet sich vor allem für BI-Analysen und KPI-Reportings, der Data Lake hingegen beispielsweise für komplexere Analytics-Anwendungen mit Machine Learning, die auch IoT-Daten mit einbeziehen. Ein Data Lake kann dabei wiederum die zentrale Quelle für ein Data Warehouse bilden.
Das Internet of Things (IoT) bringt eine stetige Informationsflut mit sich, da jedes noch so kleine Device Daten generiert. Doch damit Unternehmen ihre Datenmassen intelligent nutzen können, müssen sie ihre Datenhaltung darauf vorbereiten.
Florian Weigmann, Chief Product Officer, Plusserver