Neben den Datenkatalogen gibt es weitere Tools und Frameworks für das Management von Datensätzen, die zu berücksichtigen sind, zum Beispiel CKAN und Frictionless Data.
CKAN ist hauptsächlich von Regierungen und Stiftungen im Einsatz. Als Tool zum Veröffentlichen von Daten kann man es nicht mit Datenquellen wie SQL oder Hive integrieren. Um CKAN mit diesen Datenquellen zu verwenden, müssen Nutzer ihre Daten zuerst in eines der unterstützten Datenformate überführen. Andererseits hat CKAN ein einfaches und benutzerfreundliche User Interface. Es besteht die Möglichkeit, Erweiterungen hinzuzufügen, welche die Funktionalität erheblich ausweiten können.
Zu den enthaltenen Features zählen Zugriffskontrolle, Datenvisualisierung, Datenvorschau und Datensammlung. Einige der Features können die Installation zusätzlicher Erweiterungen voraussetzen. CKAN ist in Python geschrieben und nutzt Postgres und Solr, um Metadaten dauerhaft zu speichern. Das Tool unterstützt sowohl lokalen als auch Cloud-Speicher wie etwa AWS S3 oder Azure Storage. Der CKAN Quellcode ist auf GitHub verfügbar.
Frictionless Data ist ein Framework zum Erstellen von Dateninfrastrukturen und zielt auf Daten-Management, Integration und Workflows ab. Es bietet eine Vielfalt an Tools zum Daten-Management, zum Beispiel Data Packages oder Good Tables. Das Framework ist von datahub.io in Verwendung, welche Datenveröffentlichungsdienste anbieten. Der Quellcode befindet sich auf GitHub.
Fazit
Mit größeren Datenmengen steigt die Bedeutung von Daten-Management und der Data Discovery. Viele der genannten Produkte waren anfänglich für den internen Gebrauch in Unternehmen gedacht, erst später erfolgte die Veröffentlichung. Dieser Trend ist nicht nur für Nutzer, sondern auch für die Produkte positiv: Eine Folge ist, dass die entsprechenden Plattformen vielseitiger werden. Bereits jetzt ist offensichtlich, dass die meisten größeren Unternehmen eines oder mehrere der hier beschriebenen Tools verwenden oder eigene Tools entwickeln. Das zeigt, dass sich dieses Gebiet weiterentwickelt und in einiger Zeit neue Tools zur effektiven Bewältigung aufkommender Problemstellungen zur Verfügung stehen werden.
Patrick Bornikoel ist Partner und Dmitry Yaraev Senior Consultant bei Data Reply, www.reply.com.