CRN: Terracotta ist Ihr Produktbereich für Big Data und In-Memory-Computing. Wie wirken diese beiden Aspekte zusammen?
Jost: Big Data ist keine Technologie, sondern ein Phänomen. Die zu bearbeitenden Datenvolumen werden immer größer. Die Geschwindigkeit, mit der wir Daten analysieren müssen, nimmt ebenfalls zu. Außerdem werden die Datentypen vielfältiger: Wir reden heute auch über Sensor-, Audio- und Textdaten. In-Memory-Computing ist eine wesentliche Technologie, um der Big Data Herr zu werden. Denn je näher Daten am Prozessor sind, desto schneller können sie verarbeitet werden. Hauptspeicher ist heute in Größen und zu Preisen verfügbar, wie das in der Vergangenheit nicht der Fall war. Die dritte Normalform relationaler Datenbanken wurde einst entwickelt, um Redundanzen zu vermeiden und weniger Speicherplatz zu benötigen. Moderne Datenbankmodelle etwa bei Google oder Facebook arbeiten aber nicht mehr mit diesem mathematischen Modell. Man nimmt zugunsten der Skalierbarkeit und der Verarbeitungsgeschwindigkeit bei neueren Anwendungsfällen in Kauf, dass die Daten nicht zu jedem Zeitpunkt konsistent sind. Aris und Webmethods sind inzwischen In-Memory-enabled und können auch mit NoSQL-Datenbanken arbeiten. Es kommt darauf an, wieviel Konsistenz jeweils gebraucht wird. Weitere Technologien sind Complex Event Processing und Messaging. Die rasche Verarbeitung von Events ist ebenfalls Teil der Big-Data-Software. Hinzu kommt noch Realtime Visualization. Das sind die vier Technologien für die Datenaspekte Velocity und Variety.
CRN: Das heißt aber nicht, dass alles im Arbeitsspeicher sein muss. Nicht so oft gebrauchte Daten lagert man besser auf billigere Medien aus, oder?
Jost: Wenn es um den Aspekt Volume geht, braucht man plattenbasierte Speichersysteme und Datenbanken wie Hadoop. Die sind dann nicht Realtime, sondern Batch. Ein In-Memory-Store kann Terabytes von Daten managen, aber nicht Exabytes. Wir haben Schnittstellen für Lese- und Schreibzugriff für Hadoop in den Fassungen von Hortonworks und Cloudera. Wir können aktuell relevante Daten im Hauptspeicher lassen und die anderen nach Hadoop speichern. Riesige Datenströme, wie sie von Websites oder Maschinen kommen, kann man nicht sinnvoll in den Hauptspeicher legen. Die Filterung erfolgt über eine Event-Engine.