Big Data

Datenanalyse im Internet der Dinge

5. Dezember 2016, 14:04 Uhr | Autor: Fabian Wilckens / Redaktion: Markus Kien

Fortsetzung des Artikels von Teil 1

Die Datenmassen zu einem Berg auftürmen

Sensoren und Cloud können auf unterschiedlichem Wege miteinander vernetzt werden – die technisch simpelste Variante ist eine kabelgestützte Verbindung. In aller Regel günstiger und praktischer sind jedoch Funkverbindungen. Bislang kommen im Internet der Dinge vor allem GSM-Module zum Einsatz. Energieeffizient und kostensparend erfüllen sie die Anforderungen des IoT wesentlich besser als jüngere Mobilfunkstandards wie UMTS oder LTE. In Zukunft wird 5G die notwendigen Kapazitäten liefern.

Beispiel Smart City: Millionen von Sensoren überwachen den Verkehrsfluss, die Strom- und die Wasserversorgung, kontrollieren die Füllstände von Mülleimern oder dokumentieren die Feinstaubbelastung. Alle erhobenen Daten senden sie an den zentralen Knoten des Netzwerks – die Cloud. Dort werden sie gesammelt, importiert und für ihre sofortige Nutzung oder Ablage in der Datenbank verarbeitet. Dabei sollte stets sichergestellt sein, dass alle Arten von Informationen schnell erfasst und problemlos zwischen unterschiedlichen Anwendungen verschoben werden können. Erfolgt die Erfassung etwa in Echtzeit über einen Messaging-Layer, können Datenströme beliebig umgeleitet werden. Daten stehen dann immer, überall und in jeder erdenklichen Form zur Verfügung. Für komplexe Analysen und Anwendungen ist das eine wichtige Voraussetzung.

Data-Mining im IoT

Aus Sicht der Datenverarbeitung lassen sich drei verschiedene Arten von Sensoren unterscheiden: Erstens passive Sensoren, die nur dann Daten liefern, wenn sie aktiviert werden. Diese Lösung erlaubt besonders energieeffiziente Geräte, erfordert aber, dass die Aktivitätszeiten der Sensoren von zentraler Stelle – also aus der Cloud heraus – gesteuert werden. Zweitens aktive Sensoren, die einen kontinuierlichen Datenstrom zur Verfügung stellen. Hier besteht die Herausforderung eher darin, die eingehenden Informationen sinnvoll zu filtern und einzelne Messwerte auf Relevanz zu untersuchen. Drittens dynamische Sensoren, die bidirektional mit IoT-Anwendungen kommunizieren können. Sie liefern in vielen Bereichen den größten Gewinn, denn sie senden nicht nur Daten, sondern empfangen auch Befehle. Auf Zuruf variieren sie Messfrequenzen oder Datenformate.Ein Datenberg, den weder Mensch noch Maschine überblicken kann, ist wertlos. Die Kunst, ihn zu durchwühlen und dabei neues Wissen zutage zu fördern, wird als Data-Mining bezeichnet. Diese Auswertung gigantischer Datenmengen bedarf einer belastbaren Infrastruktur, die mit ihren Aufgaben mitwächst. Cloudbasierte Rechensysteme können diese Herausforderung besonders gut bewältigen, da sie ein ausreichendes Maß an Flexibilität und Leistungsvermögen aufweisen.

Das aktuell meist verbreitete Framework ist „Apache Spark“. Das Open-Source-Projekt verarbeitet Daten wesentlich schneller als sein großer Konkurrent „Hadoop“, dessen Entwicklung übrigens ebenfalls Apache beaufsichtigt. Spark setzt auf In-Memory-Datenverarbeitung. Dabei werden Daten direkt im Arbeitsspeicher der Cluster-Knoten gespeichert und verarbeitet. Gegenüber konventionellen Systemen, die Daten stets vom Festplattenspeicher laden müssen, besitzt dieses Verfahren enorme Geschwindigkeitsvorteile. Erst wenn Datenmengen für den Arbeitsspeicher zu groß werden, lagert Spark sie auf Festplatten aus. Ein weiterer entscheidender Wettbewerbsvorteil von Spark ist dessen Fähigkeit, mit den unterschiedlichsten Datenquellen umzugehen. Dazu zählen das Hadoop Distributed File System (HDFS), NoSQL-Datenbanken und relationale Datenbanken wie Hive.

Ehe der Mensch einen Blick auf die Daten wirft, kommt erneut die Maschine ins Spiel. Selbstlernende Algorithmen untersuchen die Datenströme beispielsweise auf Korrelationen, Ereigniszusammenhänge oder sogenannte Ausreißer – also auf Messdaten, die aus den üblichen Mustern ausbrechen. Die gewonnenen Erkenntnisse stellen sie dann zur weiteren Auswertung zur Verfügung. Analysetools helfen dem menschlichen Betrachter, sich ein genaues Bild zu verschaffen – etwa durch grafische Aufbereitung und die Zusammenführung von Informationen auf einem Dashboard.

Noch immer erfolgt die Datenauswertung dabei üblicherweise per SQL, also in einer Sprache, die ausreichend leistungsstark ist und in IT- oder Datenabteilungen üblicherweise von einer Mehrzahl der Mitarbeiter beherrscht wird. Und zwei weitere Argumente lassen sich für SQL anführen: Zum einen ist SQL mit den meisten Reporting- und Analysetools vollumfänglich kompatibel. Zum anderen kann die Sprache mit den unterschiedlichsten Datenformaten umgehen – wie eben auch Spark. Im Internet der Dinge, einem heterogenen Sammelsurium aus Daten und Datenquellen, ist das ein entscheidender Vorteil.

Ohne Cloud kein IoT

Je komplexer ein technisches Großsystem, desto wichtiger ist eine umfassende Kompatibilität der Schnittstellen. In der Smart City etwa laufen tausende Datenströme zusammen. Sie müssen gebündelt, verarbeitet und ausgewertet werden. Cloudbasierte Big-Data-Plattformen beschleunigen maschinelles Lernen und erleichtern statistische Analysen sowie grafische Aufbereitungen von Daten. Alle erdenklichen Analysetools können über entsprechende APIs hinzugeschaltet werden, für jeden Anwendungsfall steht somit eine passende Lösung bereit. In der langen Kette von der Datenerhebung durch Sensoren bis hin zu den datenge-stützten Entscheidungen, die von Mensch und Maschine getroffen werden, ist die Datenauswertung der entscheidende Schritt.

Deshalb ist das Internet der Dinge mit der Cloud untrennbar verbunden. In cloud-basierten Big-Data-Plattformen laufen die Datenströme zusammen, die durch Milliarden von Sensoren erzeugt werden. Sie liefern die notwendigen Kapazitäten, um Daten zuverlässig zu speichern, zu verarbeiten und auszuwerten. Sie sind in der Lage, Informationen aus den unterschiedlichsten Quellen in Echtzeit zu erfassen. Indem sie Rohdaten in Erkenntnisse verwandeln, liefern sie die Basis für datengestützte Entscheidungen. Für die weitere Expansion des IoT ist die Cloud deshalb von maßgeblicher Bedeutung.

Fabian Wilckens, Regional Director of Solutions Engineering DACH & EE bei MapR

Anbieter zum Thema

zu Matchmaker+

  1. Datenanalyse im Internet der Dinge
  2. Die Datenmassen zu einem Berg auftürmen
  3. Expertenkommentar: Schluss mit lustig - Big Data wird ernst!

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu connect professional

Weitere Artikel zu Mobilfunk-Dienste

Weitere Artikel zu IoT Services

Matchmaker+