Kommentar: Big-Data

Datenberge mit Gehirnschmalz durchforsten

27. Juli 2015, 16:29 Uhr | Mathias Hein, freier Consultant in Neuburg an der Donau
Kolumnist: Mathias Hein
© funkschau

Mit Big-Data sollte es möglich sein, beim Stöbern in beliebigen Datenbergen auf unbekannte Zusammenhänge zu stoßen. Aber aufgepasst, die Zusammenhänge können sich auch nur als einfacher Zufall erweisen.

Früher nutzten wir das Data-Mining um in einem scheinbar wertlosen Datenberg aufwändig nach neuem Wissen zu "graben". Eigentlich versteht man unter Data-Mining die systematische Anwendung statistischer Methoden auf große Datenbestände mit dem Ziel, neue Querverbindungen und Trends zu erkennen.

Die Bezeichnung "Data-Mining" ist jedoch etwas irreführend, denn es geht um die Gewinnung von Wissen aus den Daten und nicht um die Generierung von Daten selbst. Auch wird die reine Erfassung, die Speicherung und die Verarbeitung großer Datenmengen fälschlicherweise auch mit dem Schlagwort „Data-Mining“ bezeichnet.

Korrekt verwendet bezeichnet das Data-Mining die Extraktion von Wissen, das im statistischen Sinne bisher unbekannt war und zur Bestimmung bestimmter Regelmäßigkeiten, Gesetzmäßigkeiten und verborgener Zusammenhänge nützlich ist. Das Data-Mining ist inzwischen jedoch völlig veraltet. Seit diesem Jahr wird die „Big Data Sau“ durch das digitale Dorf gejagt.

Big-Data bezeichnet solche Datenmengen, die zu groß oder zu komplex sind oder sich zu schnell ändern, um sie mit klassischen Methoden der Datenverarbeitung auswerten zu können. Inzwischen wird der Begriff "Big Data" für jegliche Art der Datenverarbeitung verwendet, selbst wenn die Daten weder groß, noch komplex sind oder sich nicht so schnell ändern und daher mit herkömmlichen Techniken problemlos verarbeitet werden könnten.

Laut Big-Data hängt bekanntlich alles mit allem zusammen. Daher fragt Big-Data: „Wie hängen die Dinge miteinander zusammen?“ Im Zeitalter einer fast unermesslichen Computerpower liegen eine Menge Antworten auf bisher nicht gestellte Fragen auf der Hand. Die Parole lautet: „Finde in den vorhandenen Datenbergen die Zusammenhänge zwischen den verschiedenen Ereignissen und stelle die Trends dar!“

Unter Umständen findet man sehr schnell Verbindungen, die uns früher entgangen wären. Je mehr Daten vorhanden sind, umso mehr Zusammenhänge lassen sich theoretisch und auch praktisch finden! Beispiele gefällig? Der Genuss von Bionahrung und die Zunahme von AIDS hängen irgendwie zusammen. Ebenso überzeugend ist der Zusammenhang zwischen dem Pro-Kopf-Verbrauch von Rohmilchkäse und der Anzahl der Menschen, die in ihrem Bett ersticken. Ähnliches gilt für die Gefahr, in der eigenen Badewanne zu ertrinken, und der Zahl der Filme, in denen Johnny Depp auftritt. Aber am rätselhaftesten ist die Tatsache, warum die Scheidungsrate in der Stadt Konstanz aufs engste mit dem Pro-Kopf-Verbrauch von Salatöl in der Schweiz gekoppelt ist.

Natürlich handelt es sich bei den genannten Beispielen nur um bizarre Scheinzusammenhänge. Aber anhand dieser Daten lassen sich sehr schnell die großspurigen Behauptungen mancher Big-Data-Vertreter ad absurdum führen. Es genügt eben nicht, wie von diesen behauptet, einfach den Rechenknecht mit Daten vollzustopfen, um am Ende kommt eine aufregende neue Erkenntnisse oder Verknüpfungen heraus. Die Wahrheit von Big-Data lautet: Wer viel korreliert, erhält unter Umständen viel Mist.

Auch beim Umgang mit den Ergebnissen von Rechenknechten (schnellen Supercomputern) sollte man eine gesunde Portion natürliche Skepsis walten lassen und vor allem das Mitdenken nicht abschalten. Der Schlaf ohne Vernunft erzeugt Statistikgespenster. Viele Big-Data-Experten neigen sogar dazu, so lange in den Datenbanken zu stöbern, bis das erwünschte Ergebnis gefunden wurde. Frei nach dem Motto: Glaube keiner Statistik, die du nicht selber gefälscht hast!

Natürlich ist es nicht ganz fair, sich hier nur über Auswüchse von Big-Data lustig zu machen. Dieses Problem existiert schließlich, seit es Statistiken gibt. Statistische Zusammenhänge (Korrelationen) sind längst nicht immer auch ursächlicher Natur. Oft beruhen die Zusammenhänge auf Zufällen oder auf weiteren Faktoren, die im Dunkel bleiben, aber die wahren Ursachen darstellen. Der Nutzen vieler Aussagen steht außer Frage, aber die daraus gezogenen Schlussfolgerungen sind womöglich zu weit hergeholt. Auch wenn die Statistik dafür spricht.

Die zunehmende Aufweichung des Begriffs „Big Data“ führt dazu, dass dieser zu einem aussagelosen Marketingterminus verkommt und viele Big-Data-Prognosen stark abgewertet werden.

Anbieter zum Thema

zu Matchmaker+

  1. Datenberge mit Gehirnschmalz durchforsten
  2. Statistisch gesehen mögen viele Antworten stimmen

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu connect professional

Weitere Artikel zu Server, Datacenter

Matchmaker+