David Pieterse, Vice President Sales EMEA bei Cloudera, gibt im Interview Beispiele und Handlungsempfehlungen, wie sich Big Data und IoT zu einer lohnenden Partie verknüpfen lassen.
Welche wirklich neuen Herausforderungen halten IoT & Big Data bereit?
David Pieterse: Aus meiner Sicht haben wir bislang nur die allerersten Anfänge von IoT-Datenströmen erlebt, und schon diese Datenströme sind geradezu überwältigend. Werfen Sie einen Blick auf die Stadt San Francisco: Dort gibt es schätzungsweise zwei Milliarden Sensoren. Diese Sensoren befinden sich nicht nur in Smartphones und Autos, sondern auch an vielen anderen Orten, etwa in den zahlreichen Hochhäusern der Stadt, wo Luftdruck, Temperatur, Vibrationen und anderes mehr gemessen werden. Das interessanteste daran ist, dass die meisten dieser Sensoren momentan noch nicht mit einem Netzwerk verbunden sind. Meine Prognose lautet, dass sich das innerhalb des nächsten halben Jahrzehnts deutlich ändern wird. Dies wird zu einem regelrechten Tsunami von Daten führen! Das Design von Systemen, die Daten erfassen, verarbeiten, zusammenfassen, steuern und schließlich analysieren, stellt für die IT eine große Herausforderung dar. Eine derartige Informationsflut, wie sie uns bevorsteht, haben wir noch nie erlebt.
Worin liegen die größten Risiken für Unternehmen?
Pieterse: Auf der einen Seite besteht die Gefahr, den Trend zu verpassen und von neuen Playern im Markt verdrängt zu erden - Stichwort Digitale Transformation. Auf der anderen Seite sehen wir oft, dass Firmen zu schnell zu viel wollen. Die Technologien zur Erzeugung dieser Art von Daten – also die großräumige Verbreitung von Sensornetzwerken – sind ebenso neu wie die Infrastruktur zur Erfassung, Verarbeitung und Analyse der Informationen. Unserer Erfahrung nach ist es sehr klug, mit einem kleinen Proof of Concept zu beginnen. Statt einer Million Geräte sollten es am Anfang eher 1.000 Geräte sein. Anschließend wird dann eine Infrastruktur zur Erfassung und Verarbeitung der Daten aufgebaut, die mit diesem Umfang zurechtkommt. Auf diese Weise lässt sich überprüfen, ob die Konstruktion auch funktioniert, und die jeweilige Organisation und die damit arbeitenden Menschen können im Umgang mit den Systemfunktionen geschult werden.
Gibt es irgendeinen entscheidenden Fortschritt im Datenmanagement, der das IoT Wirklichkeit werden lässt?
Pieterse: Wenn wir die Fortschritte der nächsten fünf bis zehn Jahre betrachten, dann dürfte der Zustand der Software weiter verbessert werden; wir werden mehr und bessere Algorithmen zur Analyse haben; wir werden kostengünstigere Scale Out-Speicherarchitekturen haben; wir werden in der Lage sein, mit weniger Speicherplatz auszukommen, weil wir klüger werden, wie wir Daten verschlüsseln und replizieren. Was aus meiner Sicht aber am interessantesten sein dürfte, sind die Fortschritte im Bereich der Hardware. Die Verbreitung von vernetzten Sensoren in mobilen Geräten und in der Umwelt im Allgemeinen wird sich fortsetzen oder sogar explosionsartig zunehmen. Dadurch entsteht eine Menge an neuen Daten. Denken Sie nur an die Chip-Reihe Intel Atom und vergleichbare Konstruktionen der anderen Anbieter. In den Bereichen Erfassung/Speicherung/Analyse wird es Chips geben, die besser zu Infrastrukturen dieser Größenordnung passen.
Welche Rolle spielt Hadoop in diesem Umfeld?
Pieterse: Um den Anforderungen der zunehmenden Vernetzung von Anlagen und Maschinen gerecht zu werden, muss die Industrie flexibel, zielgerichtet und systematisch organisiert vorgehen. Dabei gibt es drei Schlüsseltechnologien, die miteinander interagieren und ohne die IoT und Industrie 4.0 nicht denkbar sind: M2M, Big Data und die Cloud. Vor allem Big Data gilt es dabei in den Griff zu kriegen. Der Erfolg der IoT-Strategie eines jeden Unternehmens hängt direkt von einer stabilen Datenplattform und -architektur zur Verarbeitung dieser Datenmengen, eben Big Data, ab. Die Apache Hadoop-Software hat sich aufgrund ihrer Flexibilität und nahezu grenzenlosen Skalierbarkeit mittlerweile als Framework zum De-facto-Standard entwickelt, der auch problemlos mit Unternehmensanwendungen wie SAP HANA zusammenspielt.
Wann ist der Einsatz von Big Data-Technologie zu empfehlen und wann nicht?
Pieterse: Wenn es um eine traditionelle Transaktionsverarbeitung oder OLAP Workloads geht, verweisen wir an Oracle, SQL Server, Teradata, et cetera, da diese Systeme zur Lösung derartiger Aufgaben entwickelt wurden. Big Data-Technologie funktioniert am besten bei zusätzlichen Datenmengen und neuartigen, analytischen Workloads. Wenn das Ziel lautet, wir wollen unsere vorhandene Infrastruktur abreißen und durch Hadoop ersetzen, halten wir üblicherweise Abstand – so etwas geht meist nicht gut. Sofern Sie es aber mit Herausforderungen oder Business-Treibern neuer Art zu tun haben und mit zusätzlichen Datenmengen, können wir entsprechend große Erfolge erzielen. Der pauschale, unüberlegte Wunsch nach einem kompletten Austausch der Systeme bringt rein gar nichts.