Um das Tool konkret einsetzen zu können, hat das Konsortium der beteiligten Organisationen eine Reihe von Anwendungsfällen definiert, die standardisiert, offen und einsehbar sind sowie auf einem definierten Set von Hardware laufen. Die Voraussetzungen von Modellarchitektur und Ressourcennutzung sind somit gleich. Als Produzent eines KI-Modells kann man sich auf der Website zum Tool anmelden und ein Modell einreichen. Zusätzlich muss ein Fragebogen ausgefüllt werden. Dort wird zum Beispiel abgefragt, für welchen Anwendungsfall das KI-Modell ist, also ob Texterstellung, Bildklassifizierung, Objekterzeugung et cetera. Dabei können sowohl proprietäre als auch Open-Source-Modelle getestet werden. Offene Modelle können automatisch getestet werden, proprietäre Modelle in einer gesicherten Testumgebung. Die Testresultate werden dann zur Prüfung eingereicht.
Der Energieverbrauch wird dabei in der Inferenz getestet, „weil wir festgestellt haben, dass es zur Inferenz noch wenig gute Benchmarkdaten gibt und der Energieverbrauch hier relativ komplex ist“, erklärt Müller. Die Berechnung des Verbrauchs für das Training sei dagegen oft schon relativ gut beschrieben. Am Ende wird das eingereichte KI-Modell anhand der Resultate in einer offen sichtbaren Rangliste eingeordnet. Diese Liste wird veröffentlicht, inklusive eines Energieeffizienzlabels, bei dem zwischen ein bis fünf Sterne vergeben werden – fünf Sterne stehen dabei für die beste Energieeffizienz. Das Label ist bislang jedoch nicht an offizielle Stellen, wie etwa einem TÜV oder ähnlichen Prüfstellen, gekoppelt. Die Methodologie und Testdaten des Energy Score sind allerdings transparent und jeder Stelle zugänglich. Die Nutzung des Benchmarking-Tools ist aktuell kostenfrei, Müller gibt aber zu bedenken, dass Unternehmen natürlich interne Kosten haben können, um überhaupt Modelle für eine Bewertung vorzubereiten.
Anwenderunternehmen wiederum können aus den gelisteten Modellen für ihren jeweiligen Anwendungsfall, also zum Beispiel Textgenerierung, sehen, welche Lösungen die energieeffizientesten sind und welche schlechter abschneiden. Aktuell sind 166 Modelle in der Liste aufgeführt. Nach den größten Energieschluckern unter den Anwendungsfällen von KI-Modellen gefragt, zeichnet Müller folgende Abstufung: Generative KI, die mit Bilderzeugung zu tun hat, bewegt sich am oberen Ende, während Textklassifizierung und Texterkennung am unteren Ende der Skala anzusiedeln sind.
Vorgestellt wurde das Tool erstmals beim Pariser „AI Action Summit“ im Februar. Müller selbst war zwar nicht vor Ort, weiß aber von Kollegen, die dort waren: „Der Leiter unserer KI-Abteilung, Boris Gamazaychikov, war dort und hat die Initiative vorgestellt. Er erzählte, dass die Stimmung beim Summit wie auf einer Tech-Konferenz war und die Resonanz noch größer als erwartet.“
Auch bei den Unternehmenskunden im deutschen Markt sieht Müller Offenheit für das Thema; er nimmt wahr, dass Technologie und Nachhaltigkeit immer weiter zusammenwachsen. „Und das gar nicht unbedingt nur aus Compliance-Gründen beziehungsweise aus einer ESG-Berichtserstattungsperspektive heraus, sondern weil Unternehmen verstanden haben, dass eine hohe Performance in Nachhaltigkeit letztlich ein Hebel ist für den künftigen Geschäftserfolg.“
Der Fokus auf die Energieeffizienz ist für Müller dabei nur der Anfang. Auch andere Parameter, wie beispielsweise der Wasserverbrauch, könnten folgen.