Large Language Models wie ChatGPT und GPT-4 sind in aller Munde und revolutionieren das Natural Language Processing und damit die Art, wie Technologie natürliche Sprache verarbeitet. Mit der Folge, dass Avatare und Voice-Lösungen beinahe menschlich anmuten und neue Nutzungsszenarien eröffnen.
Der Artikel liefert unter anderem Antworten auf folgende Fragen:
Man stelle sich vor, man betritt einen Baumarkt und sucht nach einem kleinteiligen Produkt, dessen genaue Bezeichnung nicht bekannt ist. Statt jedoch durch die Gänge zu irren, eine/n Verkäufer:in zu befragen oder händisch an einem Display nach dem Produkt zu recherchieren, wird man auf einem Interactive Kiosk mit transparentem, holografischem Bildschirm ein lebensgroßer, menschenähnlicher und hyperrealistischer 3D-Avatar begrüßt. Man kann ihn oder sie um Rat fragen und Empfehlungen geben lassen. Der Avatar reagiert in Echtzeit und beantwortet geduldig alle Fragen. Und verrät nicht nur, wo das Produkt zu finden ist, sondern gibt auch passende Do-it-yourself-Tipps. Also ganz so, als würde man sich mit einem echten Menschen unterhalten.
Noch ist ein solches Szenario Zukunftsmusik, wenn auch nahe. Aber erste Ansätze dieser Art gibt es bereits. Ein solcher Avatar ist auch Rose1. Sie ist zwar nicht im stationären Handel anzutreffen, jedoch virtuell bereits im Einsatz: „Ich bin Rose, ein Digital Human. Mein allgemeines Wissen basiert auf GPT-3, zusätzlich habe ich spezifische sowie ausführliche Informationen über das Metaverse erhalten.“ So stellt sich Rose mit ihrem hippen, pinkfarbenen Kurzhaarschnitt vor. Sie entstand innerhalb von sechs Monaten in einem iterativen Prozess. In diesem Zeitraum hat sie ihre Fähigkeiten erweitert und ihre Interaktion verbessert. Vor allem aber hat sich in dieser Zeit der Kontext stark verändert, denn insbesondere dank ChatGPT ist Künstliche Intelligenz speziell im Marketing sehr präsent.
Neben ChatGPT ebnen weitere generative KI-Tools den Weg für die Zukunft intelligenter, selbstlernender Systeme. Dazu zählen komplexe KI-Modelle – zur Texterstellung, für Übersetzungen, um Fragen zu beantworten oder zur KI-gestützten Bilderzeugung. So können auch heute schon KI-generierte Inhalte weitestgehend ohne menschliches Zutun entstehen, wie folgendes, bis dato prototypisches Beispiel zeigt: Um das visuelle Erscheinungsbild der meist weiblichen digitalen Avatare zu generieren, eignen sich Text-zu-Bild-KIs wie Midjourney, die mit Millionen oder gar Milliarden an Bildern aus dem Web trainiert wurden. Die Skripte und Monologe verfasst beispielsweise ChatGPT, der Digital Humans-Video Generator D-ID erweckt das KI-erzeugte Bild dann zum Leben. Die Stimmen werden beispielsweise durch die KI-Sprach-Software Eleven Labs von real existierenden Personen synchronisiert. Mit Deepfake-Technologien lassen sich außerdem Videos, Voice-over und Animationen erstellen, Tools wie Synthesia.io oder EL.AI erzeugen Videos, basierend auf Texteingaben mit hyperrealistischen Avataren.
Komplett außen vor ist der Mensch trotz weit fortgeschrittener und komplexer KI-Technologie dennoch nicht: Bevor ein Digital Human wie Rose das Licht der Welt erblickt, gilt es, das Ergebnis manuell zu überprüfen, um sicherzustellen, dass die Ausgabe allen Qualitätsstandards, Erwartungen und ethischen Richtlinien entspricht. Außerdem bleibt auch die echte Kreativität, beispielsweise beim inhaltlichen Konzept, – und damit die schöpferische Dimension weiterhin dem Menschen vorbehalten.
Bei Rose erfolgt die auf Machine Learning basierende Interaktion übrigens durch natürliche Sprache und Video – das unterscheidet sie beispielsweise von klassischen Chatbots. Rose beantwortet Fragen – etwa zum Metaverse, worauf eine Version von ihr spezialisiert ist –, die ein Urteil erfordern, erst nach einer Denkpause und gibt meist diplomatische Antworten. Und während sie zuhört, nickt und lächelt sie, ahmt die Gesichtszüge und Bewegungen ihres menschlichen Gegenübers so gut wie möglich nach, auch wenn die Abfolge der Ausdrücke zufällig ist. Es entsteht ein flüssiger Dialog.
Möglich machen dies Natural Language Processing (NLP) und Large Language Models (LLM) wie GPT-4 und ChatGPT. Hinter Rose verbirgt sich nämlich nicht nur ein KI-Modell, sondern mehrere. Das erste Modell übernimmt die Spracherkennung (speech-to-text) und wandelt die Audioeingabe des Menschen in Text um, denn LLMs arbeiten aktuell nur mit Text. Der Text wird anschließend in eine Conversational Plattform eingegeben, die mit vorgefertigten Frage-Antwort-Paaren bestückt wurde, ähnlich einem klassischen Chatbot. Falls diese keine Antwort auf die Eingabe parat hat, kommt als zweites Modell ein LLM wie GPT-4 zum Einsatz. Dessen Antwort als Text wird daraufhin mittels einer Speech-Synthese-KI wieder in Audio-Sprachausgabe umgewandelt (text-to-speech). Mit diesem Audio lässt sich der Avatar lippensynchron mit einer 3D-Engine wie Unreal Engine 4.0 animieren. Das finale Resultat aus Echtzeit-Videoanimation und Audio wird dann an das Endgerät gestreamt. Um ein breites Spektrum an Endgeräten zu unterstützen, finden zahlreiche Cloud-Dienste Anwendung.
Speziell wenn es darum geht, menschliche Verkäufer und Berater digital zu unterstützen, können Digital Humans im stationären Handel oder im Filialgeschäft, etwa von Finanzdienstleistern, effektiv und eindrucksvoll zum Einsatz kommen. So etwa Nola, die für den neuseeländischen Elektronikhändler Noel Leeming als „Trainee“ den Kund:innen bei Fragen Rede und Antwort steht2. Oder „The Next Advisor“, ein Digital Human in der Rolle eines Cyber-Sicherheitsexperten3, der Kunden des Kreditinstituts Intesa Sanpaolo über die potenziellen Risiken von Online-Betrug informiert. Und das komplett lokalisiert für verschiedene Märkte in der jeweiligen Sprache und unter Beachtung kultureller Gegebenheiten.
Auch verschiedene Telekommunikationsunternehmen nutzen bereits Digital Humans, darunter die Deutsche Telekom mit Selena4 zur digitalen Festnetzberatung. Oder TIM, einer der größten italienischen Telekommunikationskonzerne: Der auf der Grundlage eines Avatars realisierte Digitalmensch trat bereits in verschiedenen Werbekampagnen auf.
Erste spannende Beispiele aus dem Gesundheitswesen machen weiterhin deutlich, wie KI medizinisches Fachpersonal bei Diagnosen unterstützen kann. Etwa indem sich der Digital Human mit dem Patienten über Symptome unterhält und so eine erste Vorabdiagnose vornimmt. Ein Beispiel dafür ist Maya, die für eine US-amerikanische Krankenversicherung5 unter anderem auf Basis genannter Symptome Kontakt zu einem Telemediziner herstellt. In Zusammenhang mit dem Digital Twin einer Person ist ein solches Szenario besonders interessant, da man über Wearables und Machine Learning auch Daten eines Patienten in Echtzeit mit einfließen lassen kann.
Bei sich wiederholenden und mühsamen Aufgaben sind virtuelle, hyperrealistische Avatare durchaus in der Lage, uns Menschen zu unterstützen. Dass ein Digital Human einen echten Menschen in naher Zukunft ersetzt, ist allerdings unwahrscheinlich. Die Gründe dafür sind vielseitig. Zu einen sind die meisten Digital Humans noch blind, sie stützen ihre Interaktion bis dato ausschließlich auf das Hören. Dies wird auch aber auch in naher Zukunft gelöst, wenn man mittels Kameras auch die Stimmung und Mimik des menschlichen Gegenübers abschätzen kann. Zum anderen ist die heutige KI ausschließlich in der Lage, Informationen aus der Vergangenheit zu verwenden und daraus neue Inhalte zu erstellen. Wenn innovative Lösungen nicht nur gefunden werden sollen, sondern vor allem in Geschäftsprozesse eingebunden werden, bleibt der Mensch als Wesen zentral.
Und dann wäre da noch die ethischen Komponenten, über die Unternehmen sich Gedanken machen müssen, wenn sie auf die Hilfe von Rose, Nola, Selena & Co. setzen. Dazu zählen der Daten- und Identitätsschutz sowie eine gute digitale Ethik mit entsprechend vorgegebenen Regeln. Sind diese Punkte hoch qualitativ sichergestellt, können generative KI und Digital Humans zu echten Assistenten werden, die den Menschen begleiten und in der Lage sind, Informationen zu sammeln, sinnvoll aufzubereiten, im Dialog zu kommunizieren und sich somit in unseren Dienst zu stellen. Die dafür notwendigen Technologien sind weitestgehend verfügbar. Es liegt also an den Unternehmenslenkenden und der Gesellschaft, sie gewinnbringend einzusetzen. Und sich damit nicht nur einen Wissensvorsprung, sondern auch einen Wettbewerbsvorteil zu sichern.
Thorben Fasching, Executive Partner, und Rene Schulte, Senior Manager und Head of 3D und Quantum Computing Practices, beide bei Reply
1 https://www.reply.com/de/newsroom/events/rose-the-digital-human
2 https://newzealand.ai/case-studies/uneeq-noel-leeming-digital-humans
3 https://www.cib.hu/en/Maganszemelyek/our_world/learning_center.html
4 https://www.youtube.com/watch?v=3WuV_JtS6O0
5 https://www.prnewswire.com/news-releases/mayamd-brings-the-future-of-ai-healthcare-home-to-your-tv-in-collaboration-with-lg-nova-301454619.html