Im Interview erklärt Matthias Herkommer, Manager Solution Architects bei Qlik, worauf es beim Umgang mit Big Data ankommt.
CRN: Die Datenmenge wächst rasant. Lässt sich das langfristig überhaupt handhaben?
Matthias Herkommer: Technologisch ist das gut darstellbar: Prozessoren werden immer schneller, die Speicherkapazitäten werden immer größer und günstiger. Doch Big Data hat nicht automatisch einen inhärenten Wert. Die eigentliche Herausforderung ist, aus der Menge der Daten das Relevante zu finden und darauf zu achten, dass nicht einfach der sprichwörtliche Heuhaufen rund um die einzige Nadel immer größer wird.
Viele Unternehmen, die bereits stark in Big-Data-Technologien investieren, sind noch immer in der Lernphase, wie sie das Potenzial ihrer im Data Lake gespeicherten Daten optimal nutzen können. Neue, nutzbare Einsichten entstehen in der Regel durch Data Discovery und Data Storytelling – also das intuitive Erforschen neuer, auch außergewöhnlicher Datenkombinationen sowie das Darstellen und Teilen neuer Einsichten, um gute Ideen weiterzuentwickeln. Um diesen Prozess dynamisch zu gestalten, verfügen die Qlik-Lösungen über On-Demand Apps und demnächst Big Data Indexing, das sich zunächst an verfügbaren Metadaten orientiert und dann in hoher Geschwindigkeit passende Suchorte im Data Lake findet – passend für jede Anfrage. Die In-Memory-Verarbeitung beschleunigt dann die Self-Service-Analyse des individuellen Datenausschnitts zusätzlich und ermöglicht die schnelle Verknüpfung mit weiteren Datenquellen.
CRN: Bleibt Hadoop die Antriebsfeder für Big Data?
Herkommer: Hadoop ist als Basis der großen Big-Data-Player wie Cloudera oder Hortonworks eine der
gängigsten Big-Data-Datenquellen. Andere Hersteller wie Teradata oder IBM integrieren ihre eigenen Datenbankprodukte zunehmend mit Hadoop, um vom vergleichsweise günstigen Massendatenspeicher zu profitieren. Die Bedeutung dieser Quellen steigt mit Sicherheit, je mehr Punkte der Datengenerierung es gibt – Stichwort IoT. Big Data meint jedoch nicht nur die schiere Anzahl an Daten, sondern immer mehr und heterogenere Datenquellen und -formate. Die Datenintegrationswerkzeuge von Qlik bringen auch disparate Datenquellen mit sehr großem Datenaufkommen unkompliziert auf einer gemeinsamen Oberfläche zusammen.
CRN: Welches der „drei Vs“ Velocity, Variety und Volume ist am entscheidendsten?
Herkommer: Geschwindigkeit der Datenerzeugung, Disparität der Datenquellen und zu verarbeitende
Datenvolumen gehen in anspruchsvollen Big-Data-Szenarien Hand in Hand. Gerade dort, wo hohe Automatisierungsgrade vorherrschen, haben alle drei Aspekte große Bedeutung – etwa im Industrie 4.0-Umfeld, wo es um M2M-Kommunikation oder Supply Chain Management in Echtzeit geht. Wo mit Streaming und Live-Datenanzeige gearbeitet wird, spielt Geschwindigkeit eine besondere Rolle. KI-Anwendungen bauen zumindest anfänglich auf große Datenvolumen. Langfristig ist allerdings der Aspekt Varietät am interessantesten. Ein Großteil aller Analytics-Projekte wird in naher Zukunft mindestens zehn oder mehr Datenquellen anbinden. Dabei werden nicht alle Daten über Hadoop gehen, sondern viele Anwender werden die Datenquellen direkt und ohne Vorsysteme an ihr BI-Tool anbinden.
CRN: Muss in Deutschland hinsichtlich Big Data mehr passieren im Ausbildungsbereich?
Herkommer: Einiges geschieht schon im Hochschul- und Ausbildungsbereich. Ebenso wichtig ist aber die konsequente Umsetzung »on the job« innerhalb einer unternehmensweiten Big-Data-Strategie. Datenmengen allein – auch große und größte – haben per se noch keinen verwertbaren Nutzen. Erst ein ganzheitliches Datenverständnis über die Bedeutung von Daten und über die Arbeit mit den Daten machen den Weg zu relevanten Einsichten frei. Dazu muss nicht jeder ein Data Scientist werden. Jeder, der mit Daten arbeiten möchte, soll entsprechend seines Aufgabenbereichs und seiner Zugriffsrechte mit den Informationen arbeiten können: rollenbasiert und anhand intuitiver Assoziationen. Das ist ein zukunftsfähiger Ansatz, denn digitale Prozesse etablieren sich inzwischen an nahezu allen Stellen der Wertschöpfungskette in Unternehmen. Data Literacy kann man lernen – am besten schon von Anfang an.