Anwendungsintegration: Daten von Legacy-Systemen legt IBMs Datenbank Cobra geschäftsorientiert ab

Kompression soll IBMs DB2 Flügel verleihen

8. Juli 2009, 22:58 Uhr |

Die Cobra genannte Version 9.7 der Datenbank DB2 hat IBM auf Kostensenkung getrimmt: Sie spart durch Komprimierung Ressourcen, hilft beim Abschalten von Legacy-Anwendungen und stellt sich auch Multicore-Systemen mit mehr als 64 Kernen.

"Bei den Datenbanken ergeben sich Kosteneinsparungen durch die Datenkompression, die auf Indices
und XML erweitert ist, sowie durch die Archivierung", erklärt Günter Scholz, Sales Leader Data
Management Software IBM Europa. Einsparungen von bis zu 70 Prozent der IT-Kosten seien möglich. "
Bei einem großen deutschen Fertigungsunternehmen haben wir eben eine Kompression von 43 Prozent
realisiert – damit reduziert sich das Speichervolumen um zwei Fünftel."

Ein paar Terabyte-Platten dazuzustellen, kosten nicht die Welt. "Aber eine Festplatte wird ja
mehrfach gekauft", wendet Scholz ein. "Sie muss gespiegelt werden, es gibt Backup und Disaster
Recovery, die Systeme verbrauchen Strom und haben einen hohen Managementaufwand – Updaten und
Ersetzen sind mit die teuersten Faktoren beim Speichern." So kommt der DB2-Anwender Siemens zu
einer guten Bilanz: Die Kosten der Umstellung einer Datenbank-Engine amortisieren sich durch die
Datenkompression innerhalb eines Jahrs. Komprimieren und Dekomprimieren frisst natürlich auch
Ressourcen. "Aber bei der DB2 sind die Daten auch im Speicher komprimiert, was die Effizienz erhöht"
, so Scholz. "Wir erreichen also einen Performance-Gewinn." Der zweite Spareffekt kommt durch das
integrierte Datenmanagement. "Die Archivierung entlastet Systeme laufend."

"Wenn ein CIO Geld einsparen will, soll er die Legacy-Anwendungen loswerden", spricht Boris
Bialek, IBM-Programmdirektor Data Management Solutions, eine weitere Stellschraube an. Um
Anwendungen zu integrieren – manche Großunternehmen betreiben weit über 100 –, wird klassisch ein
Entwicklungsprojekt aufgesetzt. "Mit Optim kann der Anwender aber auch bestehende Anwendungen, die
nur noch historische Daten enthalten abschalten – und die kostbaren Daten weiterverwenden." Laut
Bialek werden die Daten dazu nicht in irgendwelchen Tabellen abgelegt: "Wir legen die Daten
geschäftsorientiert ab – der Business-Kontext bleibt trotz der Archivierung des Systems erhalten
und die Daten können für Audit-Prozesse zugegriffen werden." Das System suche sich die
logisch-konsistenten Daten heraus – und selbst wenn ein Datensatz in verschiedenen Tabellen oder
Datenbanken verteilt sei, werde die logische Struktur beibehalten.

"Das ist beispielsweise interessant, wenn im Personalmanagement auch alte Human-Resource-Akten
in verschiedenen Datenbanken zu pflegen sind – Mitarbeiterinformation mit dem dem Datensatz
Personalbogen und anderen Objekten wie Gehaltsabrechnungen werden in einem Vorgang zusammengefasst
und abgelegt." Es gibt einen Zugriff, auch wenn es verschiedene Anwendungen sind. Die
Informationsmanagement-Tools achten auf Validität und Compliance der Daten. Beim Umzug von Oracle
zu DB2 ist die Bedienung einfach geworden: Mit dem Optim Development Studio verschiebt der Anwender
Daten zwischen IBM DB2 9.7 und Oracle 11g per Drag and Drop. Durch die Einführung von Multi-Dialect
SQL können Entwickler ihre Fachkenntnisse von anderen Datenbanken auf DB2 übertragen.

Ein drängender werdendes Problem in der IT ist die Parallelitätsanforderung. Durch die
Multicore-Architekturen – momentan dominieren Quadcores die Serverszene – umgehen die
Prozessorhersteller physikalische Miniaturisierungsgrenzen. "Die Multicores haben Moore?s Law
abgesichert", erklärt Professor Thomas Sterling, Supercomputing-Experte von der Lousiana State
University und den Sandia Labs. "Aber die Programmierung mit Multicores wird eine schwere
Herausforderung." Auf der International Supercomputing Conference in Hamburg hat eben Andreas von
Bechtolsheim, Chefarchitekt und Mitgründer von Sun und Gründer von Arista Networks, die Zahl der
Cores vorgerechnet, die 2019 der Exaflops-Rechner haben wird: 16 Millionen.

IBMs TPC-C Benchmarks unter Unix sind längst über 128 Cores hinaus

Die IBM-Datenbanker geben sich aber gelassen. "Wir sind längst vom Prozess- auf das
Threading-Modell umgestiegen", so Bialek. "Wir sind ziehen heute in der Datenbank so viele
Parallelismen auf, wie wir Cores haben. Das gilt auch für Virtuelle – durch das parallele Threading
in den Cores multipliziert sich die Zahl weiter hoch." Die DB2 9.7 sei intelligent genug,
festzustellen, wie viele Cores zur Verfügung stehen und verteile die Anwendung automatisch parallel
– und das gelte auch für dynamische Umgebungen. Bialek geht beim nächsten Release von 64 Cores für
Intel basierende Architekturen aus: "Aber bisher haben wir noch kein Maximum gefunden, was uns
gebrochen hat. Unsere TPC-C Benchmarks unter Unix sind längst über 128 Cores hinaus"

Der zweite Ansatz, mit Parallelität umzugehen, wird mit der Parallelversion der DB2 verfolgt. "
Beim IBM System z 3950 mit aktuellen Intel-Prozessoren haben wir beispielsweise 16 Cores und dazu
Hyperthreading, was 32 Prozessströme bedeutet", rechnet Bialek vor. Bei der DB2-Parallelversion
seien mehrere Instanzen der gleichen Engine über die Cores gemappt. "Das System ist durch
Mechanismen intelligent genug, diese sogar interagieren zu lassen – jede Partition weiß von der
anderen und sie schieben sich Kapazitäten zu, bis sich die einzelnen Prozesse auf bestimmten
Core-Gruppen einschießen."

Der höheren Parallelisierung setzt IBM also Autonomic-Computing-Mechanismen wie Self-Tuning,
Self-Management und Self-Healing entgegen, so Wilfried Hoge, IBM-Technikexperte im Information
Management. "Wir legen Tabellen parallel ab, ändern sich die Maschineneigenschaften, setzt ein
automatisches Re-Balancing ein." Die Datenbank soll immer mehr alleine können – das Ziel sei die
vollautomatische Version: "Niemand kann noch bei Nacht Administratoren bereitstellen, die eine
Adaption an die Last manuell vornehmen." Es gibt schon heute im IBM-Umfeld Datenbanken, die bis zu
1000 Partitionen fahren.

Praxis verschleift Grenzen zwischen Suche und Datenbank

Gelassen gehen die DB2-Experten auch mit den IT-Trends Suche und Cloud um. "Die akademische Welt
unterscheidet zwei Paradigmen der Informationsfilterung – den Datenbank- und den Suchansatz", so
Bialek, der von "bisweilen nahezu religiösen Grenzen" spricht zwischen der Suche-Fraktion und den
sehr strukturieren Datenbankmenschen. "Unsere Hybrid-Technologie geht mit komplett unstrukturierten
XML-Daten und den Tabellenstrukturen der relationalen Welt um." In der Praxis – beispielsweise im
Analytics-Bereich – vermische sich alles: Ein Versicherungsunternehmen müsse Protokolle durchsuchen
oder ein Logistikunternehmen forsche in dem Dokumentenwust nach einem speziellen Container. Mit der
DB2 9.7 ist pureXML für Geschäftsanalytik verfügbar, die genau diese Problemstellung adressiert. "
Wir unterscheiden also nicht nach Suche oder Datenbank, sondern wir betreiben Suche in Datenbanken"
, so Bialek. "IBM investiert in Suchtechnologie und die fließt in die Datenbank ein, umgekehrt
befruchten Konzepte aus der Datenbank die Suchalgorithmen."

Und wie reagiert DB2 auf dynamische Infrastrukturen? "Die Cloud ist für uns lediglich eine
spezielle Form der Virtualisierung", so Bialek. "Natürlich mit zusätzlichen Erfordernissen wie dem
Verschieben von Partitionen im laufenden Betrieb und der Herstellung von Datensicherheit und
Integrität." Und der operative Aspekt? Interne, externe oder gesourcte Cloud? "Als Datenbankmensch
stelle ich die Konsistenz der Daten sowie die Performance sicher und muss Ressourcen dynamisch
steuern", so Bialek. IBM stellt Anwendern verschiedene zentrale Softwareprodukte im
On-Demand-Modell über die Elastic Compute Cloud (EC2) von Amazon Web Services zur Verfügung – dabei
auch Entwicklungsinstanzen von DB2. Laut Bialek entstehen auch EC2-Baucontainer, mit denen die
Partner Mehrwert generieren können.

Für Konsolidierungen hat IBM ein Bundle auf den Markt gebracht aus der DB2 und Power6-Servern
besteht. 490.000 Euro kostet ein Power-560-Server mit 16 Kernen und drei Jahre Wartung – laut IBM
Business Unit Executive Frank Theisen koste allen die Lizenz mit drei Jahre Wartung bei der Oracle
Enterprise Edition 1,37 Millionen Euro. "Und IBM legt noch eine kostenlose werkzeugbasierte
Infrastruktur- und Workload-Analyse drauf, die Nutzern anderer Datenbanksysteme das
Einsparungspotenzial einer Plattform-Konsolidierung aufzeigt."

Virtualisiertes Warehouse geht in drei Minuten live

Bei den Anwendern wird laut Information Management Experte Hoge nicht nur die Umgebung
virtualisiert, sondern auch der Code. "Der wird einmal installiert – und wenn eine neue Umgebung
zur Verfügung gestellt wird, muss ohne Neueinrichtung nur festgelegt werden, auf welchem NAS-Server
das System DB2 liegt." Big Blue hat auch schon ein virtualisiertes Warehouse vorgeführt mit DB2 und
Websphere, einem Cognos-BI-System und einem Information-Server – und alles wurde laut Hoge in drei
Minuten komplett live gezogen: "Korrekt installiert und optimiert – das spart Tage."

Ein Dauerthema bei Anwendern ist die Datenqualität – und die geht IBM auf drei Ebenen an: Mit
dem Master Data Management werden Daten aussortiert, Data Cleansing analysiert die Bestände und
Qualitätsüberprüfungen sorgen schon bei der Eingabemaske für eine saubere Datenhaltung. "Beim Data
Cleansing werden beispielsweise Adressinformationen in ein Standardformat überführt, Duplikate
erkannt und falsche Informationen wie Buchstaben in Postleitzahlen herausgefiltert", berichtet
Hoge. "Und es gibt auch Analysewerkzeuge für die Datenqualität, die Integratoren verwenden, wenn
sie ein Festpreisangebot abgeben müssen."

Rochus Rademacher/CZ


Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Lampertz GmbH & Co. KG

Matchmaker+