Ein Petabyte in sechs Stunden sortiert
Google hat einen neuen Sortierrekord aufgestellt und will jetzt die Messlatte für den bereits zehn Jahre alten Sort-Benchmark nach oben verschieben.
Der von Jim Gray vor zehn Jahren definierte Benchmark für Sortiergeschwindigkeiten misst die
Zeit zum kompletten Umsortieren von zehn Milliarden 100-Byte-Datensätze mit unkomprimiertem Text,
also insgesamt ein Terabyte. Googles Softwareingenieure haben jetzt den bisherigen Yahoo-Rekord von
209 Sekunden auf ein Drittel abgesenkt.
Nur 68 Sekunden dauerte der komplette Sortiervorgang, für den 1000 Computer parallel zum Einsatz
kamen. Google setzt für seine Sortiertechnik Mapreduce ein, die in der Open-Source-Implementation
Hadoop auch von Yahoo genutzt wird.
Nachdem Google den neuen Benchmark-Rekord aufgestellt hatte, wollte das Team von Grzegorz
Czajkowski wissen, wie sich der neue Sortieralgorithmus bei größeren Datenbanken bewährt. "Manchmal
muss ja viel mehr sortieren als nur ein Terabyte", sagte er über die Anforderungen an das Managen
der Google-Datenbestände.
Daraufhin wurde die Testumgebung um den Faktor Tausend erweitert: Statt zehn Milliarden
Datensätzen galt es jetzt, zehn Billionen Rekords zu je 100 Byte umzusortieren. 4000 Computer
stellte Google dafür bereit, der gesamte Sortiervorgang dauerte 6:02 Stunden. "Da die
Sekundenunterschiede bei dem bestehenden Sort-Benchmark immer enger werden, ist es vielleicht nach
zehn Jahren angebracht, die Definitionen nach oben zu verschieben", so Czajkowski nach dem
Test.
Harald Weiss/wg