In den USA gilt er als „sexiest Job“ überhaupt, der Data Scientist (Datenwissenschaftler). Die Karrierechancen – ein Traum: Über 100.000 US-Dollar Jahresgehalt im Schnitt und eine boomende Nachfrage sprechen Bände. Auch hierzulande gibt es viele offene Stellen. Stichproben bei deutschsprachigen Jobportalen liefern in Kürze tausende Stellenangebote.
Was genau macht ein Data Scientist?
Data Scientists analysieren und verarbeiten, so die Bundesagentur für Arbeit, „mit Methoden der Mathematik, Informatik und Statistik große Datenmengen in Echtzeit aus verschiedenen Quellen („Big Data“), um zum Beispiel über potenzielle Kunden oder Markttrends nutzbare Informationen zu erlangen. Typische Einsatzbereiche sind laut Bundesagentur Software-Hersteller, EDV-Dienstleistungsfirmen, Hochschulen, die öffentliche Verwaltung, Meinungsforscher und – ganz allgemein – „nahezu alle Wirtschaftsbereiche, in denen große Datenbestände verarbeitet werden“. Angesichts der rapide anwachsenden Datenflut scheint es nur logisch, dass viele Firmen so schnell wie möglich Data Scientists einstellen sollten – koste es, was es wolle. Was aber schnell außer Acht gerät: Rechnen sich Data Scientists tatsächlich? Denn sie müssen im ersten Schritt die Datenbestände, deren Qualität und daraus abgeleitet auch deren Wert verstehen. Dieser Versuch birgt stets die Gefahr von Fehlinterpretationen. Er setzt eine tiefschürfende Auseinandersetzung mit Informationen voraus, die aus unterschiedlichsten Quellen stammen können. Dazu sammelt der Data Scientist möglichst alle verfügbaren Daten, um sich mit einer umfassenden Datenbasis auf potenzielle Fragen aus dem Fachbereich vorbereiten zu können. Das kostet Zeit, viel Zeit – die des Data Scientists wie auch die der Experten, die ihm die Informationen aufbereitet zutragen müssen. Befragungen von Data Scientists ergeben, dass diese einen Großteil ihrer Arbeitszeit in Meetings verbringen, in denen auch andere, hoch bezahlte Spezialisten sitzen. Und jeder einzelne kostet den Arbeitgeber viel Geld.
Viel Aufwand, zweifelhafter Ertrag
Ob die Ergebnisse diesen Aufwand rechtfertigen, hängt vom Einzelfall ab. Gerade dann, wenn die Datenbasis groß, verteilt und komplex ist, können Monate oder gar Jahre vergehen, bis diese Investition die ersten Früchte trägt. Dieser drohende Zeitverlust allein ist Anlass genug, den Sinn der gutgemeinten Sammelwut dieser Data Scientists in Frage zu stellen. Aus der Sicht von Datawerks sind die aktuell noch sehr gefragten Datenwissenschaftler zu großen Teilen gar nicht darauf vorbereitet, das Problem der immer weiter ansteigenden, Datenflut zu bewältigen – im Gegenteil: Ihr Einsatz kann sich sogar kontraproduktiv auswirken. Denn kein Mitarbeiter oder Dienstleister kann die Qualität und die Nutzbarkeit von Daten so gut beurteilen wie der Anwender aus dem Fachbereich, der täglich damit arbeitet – vielleicht sogar schon seit Jahren oder Jahrzehnten. Dieses Wissen lässt sich heutzutage direkt nutzen – das heißt ohne Heerscharen von Data Scientists. Deren hoch bezahlter Einsatz kann das Wissen bestenfalls korrekt bündeln, im schlechtesten Fall gar verfälschen.
Alternative Herangehensweise
Ist es in Zeiten von Big Data überhaupt denkbar, ohne eigene Experten für die Datenanalyse auszukommen? Ja, unbedingt. Mit der patentierten Datawerks-Technologie ließen sich beispielsweise in vier der weltgrößten Freizeitparks binnen Wochen dramatische Verbesserungen der Service-Qualität erreichen: Dazu nutzte die Lösung das Wissen der Anwender. Angelehnt an die Funktionsweise des menschlichen Gehirns (genauer: dem Mandelkern) konzentriert man sich auf die Daten, die tatsächlich analyserelevant sind. Die Relevanz konnten die Anwender weit besser als außenstehende Datenwissenschaftler einschätzen. Dabei wurden Milliarden Daten aus Dutzenden Quellen einbezogen und ausgewertet. So konnte der Parkbetreiber die Kundenzufriedenheit und die Anzahl der Freizeitparkbesucher signifikant erhöhen:
Dauerte zuvor eine Suchabfrage über eine dreiköpfige Familie bis zu 36 Stunden, liefert die Lösung binnen Sekunden die gewünschten Ergebnisse. Resultat: Nach der Einführung der Lösung stieg der Jahresumsatz um über eine halbe Milliarde US-Dollar – mit gerade einmal einem Datawerker vor Ort und einer Hand voll Fachleuten auf Kundenseite. Der weitere Einsatz traditioneller Analysewerkzeuge (Data-Warehouse oder Data Lakes) mit den darauf spezialisierten Data Scientists, hätte dieses Projekt nur verzögert – und so deutlich mehr geschadet als genutzt.