Digital Humans und ChatGPT

Vom Chatbot zum hyperrealistischen Avatar

Large Language Models wie ChatGPT und GPT-4 sind in aller Munde und revolutionieren das Natural Language Processing und damit die Art, wie Technologie natürliche Sprache verarbeitet. Mit der Folge, dass Avatare und Voice-Lösungen beinahe menschlich anmuten und neue Nutzungsszenarien eröffnen.

Autoren: Thorben Fasching und Rene Schulte / Redaktion: Diana Künstler • 19.7.2023 • ca. 6:35 Min

„The Next Advisor“ ist ein Digital Human in der Rolle eines Cyber-Sicherheitsexperten, der Kunden des Kreditinstituts Intesa Sanpaolo über die potenziellen Risiken von Online-Betrug informiert. Im Bild ist der Avatar zu sehen, der für die kroatische Kundschaft konzipiert worden ist.

Inhalt

Vom Chatbot zum hyperrealistischen Avatar
„The Next Advisor“ – der Cybersecurity-Experte von morgen
Selena – der persönliche Selfservice

Der Artikel liefert unter anderem Antworten auf folgende Fragen:

Was ist ein 3D-Avatar?
Was kann ein 3D-Avatar? Wo kann er eingesetzt werden?
Welche Beispiele für Digital Humans in der praktischen Anwendung gibt es heute bereits?
Welche KI-Tools ebnen den Weg für die Zukunft intelligenter, selbstlernender Systeme?
Wieviel menschliche Einflussnahme braucht es bei der Realisierung eines auf Digital Humans?
Welche Rolle spielen Natural Language Processing (NLP) und Large Language Models (LLM) wie GPT-4 und ChatGPT?

Man stelle sich vor, man betritt einen Baumarkt und sucht nach einem kleinteiligen Produkt, dessen genaue Bezeichnung nicht bekannt ist. Statt jedoch durch die Gänge zu irren, eine/n Verkäufer:in zu befragen oder händisch an einem Display nach dem Produkt zu recherchieren, wird man auf einem Interactive Kiosk mit transparentem, holografischem Bildschirm ein lebensgroßer, menschenähnlicher und hyperrealistischer 3D-Avatar begrüßt. Man kann ihn oder sie um Rat fragen und Empfehlungen geben lassen. Der Avatar reagiert in Echtzeit und beantwortet geduldig alle Fragen. Und verrät nicht nur, wo das Produkt zu finden ist, sondern gibt auch passende Do-it-yourself-Tipps. Also ganz so, als würde man sich mit einem echten Menschen unterhalten.

Digital Human Rose

Noch ist ein solches Szenario Zukunftsmusik, wenn auch nahe. Aber erste Ansätze dieser Art gibt es bereits. Ein solcher Avatar ist auch Rose¹. Sie ist zwar nicht im stationären Handel anzutreffen, jedoch virtuell bereits im Einsatz: „Ich bin Rose, ein Digital Human. Mein allgemeines Wissen basiert auf GPT-3, zusätzlich habe ich spezifische sowie ausführliche Informationen über das Metaverse erhalten.“ So stellt sich Rose mit ihrem hippen, pinkfarbenen Kurzhaarschnitt vor. Sie entstand innerhalb von sechs Monaten in einem iterativen Prozess. In diesem Zeitraum hat sie ihre Fähigkeiten erweitert und ihre Interaktion verbessert. Vor allem aber hat sich in dieser Zeit der Kontext stark verändert, denn insbesondere dank ChatGPT ist Künstliche Intelligenz speziell im Marketing sehr präsent.

Menschliche Note, von generativer KI kreiert

Neben ChatGPT ebnen weitere generative KI-Tools den Weg für die Zukunft intelligenter, selbstlernender Systeme. Dazu zählen komplexe KI-Modelle – zur Texterstellung, für Übersetzungen, um Fragen zu beantworten oder zur KI-gestützten Bilderzeugung. So können auch heute schon KI-generierte Inhalte weitestgehend ohne menschliches Zutun entstehen, wie folgendes, bis dato prototypisches Beispiel zeigt: Um das visuelle Erscheinungsbild der meist weiblichen digitalen Avatare zu generieren, eignen sich Text-zu-Bild-KIs wie Midjourney, die mit Millionen oder gar Milliarden an Bildern aus dem Web trainiert wurden. Die Skripte und Monologe verfasst beispielsweise ChatGPT, der Digital Humans-Video Generator D-ID erweckt das KI-erzeugte Bild dann zum Leben. Die Stimmen werden beispielsweise durch die KI-Sprach-Software Eleven Labs von real existierenden Personen synchronisiert. Mit Deepfake-Technologien lassen sich außerdem Videos, Voice-over und Animationen erstellen, Tools wie Synthesia.io oder EL.AI erzeugen Videos, basierend auf Texteingaben mit hyperrealistischen Avataren.

Komplett außen vor ist der Mensch trotz weit fortgeschrittener und komplexer KI-Technologie dennoch nicht: Bevor ein Digital Human wie Rose das Licht der Welt erblickt, gilt es, das Ergebnis manuell zu überprüfen, um sicherzustellen, dass die Ausgabe allen Qualitätsstandards, Erwartungen und ethischen Richtlinien entspricht. Außerdem bleibt auch die echte Kreativität, beispielsweise beim inhaltlichen Konzept, – und damit die schöpferische Dimension weiterhin dem Menschen vorbehalten.

Flüssige Dialoge mittels NLP und LLM

Phase 1 der Digital-Assistant-Lösung Rose zielt darauf ab, die technische Machbarkeit, die erreichbare Qualität, die Skalierbarkeit und das Engagement zu bewerten, die erforderlich sind, um eine skalierbare Cloud-Basislösung zu schaffen, die den Kunden angeboten werden kann. Dabei werden hauptsächlich bereits verfügbare Bausteine wie der Avatar von Rose und die auf Dialogflown und GPT-3 basierende Konversationsmaschine verwendet. Der Zugang wird jeweils nur für einen Nutzer möglich sein, und es wird ein Streaming-Dienst auf einer cloudbasierten Infrastruktur verwendet, um den Datenfluss und die Benutzeroberfläche zu simulieren.

Bei Rose erfolgt die auf Machine Learning basierende Interaktion übrigens durch natürliche Sprache und Video – das unterscheidet sie beispielsweise von klassischen Chatbots. Rose beantwortet Fragen – etwa zum Metaverse, worauf eine Version von ihr spezialisiert ist –, die ein Urteil erfordern, erst nach einer Denkpause und gibt meist diplomatische Antworten. Und während sie zuhört, nickt und lächelt sie, ahmt die Gesichtszüge und Bewegungen ihres menschlichen Gegenübers so gut wie möglich nach, auch wenn die Abfolge der Ausdrücke zufällig ist. Es entsteht ein flüssiger Dialog.

Möglich machen dies Natural Language Processing (NLP) und Large Language Models (LLM) wie GPT-4 und ChatGPT. Hinter Rose verbirgt sich nämlich nicht nur ein KI-Modell, sondern mehrere. Das erste Modell übernimmt die Spracherkennung (speech-to-text) und wandelt die Audioeingabe des Menschen in Text um, denn LLMs arbeiten aktuell nur mit Text. Der Text wird anschließend in eine Conversational Plattform eingegeben, die mit vorgefertigten Frage-Antwort-Paaren bestückt wurde, ähnlich einem klassischen Chatbot. Falls diese keine Antwort auf die Eingabe parat hat, kommt als zweites Modell ein LLM wie GPT-4 zum Einsatz. Dessen Antwort als Text wird daraufhin mittels einer Speech-Synthese-KI wieder in Audio-Sprachausgabe umgewandelt (text-to-speech). Mit diesem Audio lässt sich der Avatar lippensynchron mit einer 3D-Engine wie Unreal Engine 4.0 animieren. Das finale Resultat aus Echtzeit-Videoanimation und Audio wird dann an das Endgerät gestreamt. Um ein breites Spektrum an Endgeräten zu unterstützen, finden zahlreiche Cloud-Dienste Anwendung.

Kunden beraten, Verkaufsgespräche führen

Speziell wenn es darum geht, menschliche Verkäufer und Berater digital zu unterstützen, können Digital Humans im stationären Handel oder im Filialgeschäft, etwa von Finanzdienstleistern, effektiv und eindrucksvoll zum Einsatz kommen. So etwa Nola, die für den neuseeländischen Elektronikhändler Noel Leeming als „Trainee“ den Kund:innen bei Fragen Rede und Antwort steht². Oder „The Next Advisor“, ein Digital Human in der Rolle eines Cyber-Sicherheitsexperten³, der Kunden des Kreditinstituts Intesa Sanpaolo über die potenziellen Risiken von Online-Betrug informiert. Und das komplett lokalisiert für verschiedene Märkte in der jeweiligen Sprache und unter Beachtung kultureller Gegebenheiten.

Auch verschiedene Telekommunikationsunternehmen nutzen bereits Digital Humans, darunter die Deutsche Telekom mit Selena⁴ zur digitalen Festnetzberatung. Oder TIM, einer der größten italienischen Telekommunikationskonzerne: Der auf der Grundlage eines Avatars realisierte Digitalmensch trat bereits in verschiedenen Werbekampagnen auf.

Erste spannende Beispiele aus dem Gesundheitswesen machen weiterhin deutlich, wie KI medizinisches Fachpersonal bei Diagnosen unterstützen kann. Etwa indem sich der Digital Human mit dem Patienten über Symptome unterhält und so eine erste Vorabdiagnose vornimmt. Ein Beispiel dafür ist Maya, die für eine US-amerikanische Krankenversicherung⁵ unter anderem auf Basis genannter Symptome Kontakt zu einem Telemediziner herstellt. In Zusammenhang mit dem Digital Twin einer Person ist ein solches Szenario besonders interessant, da man über Wearables und Machine Learning auch Daten eines Patienten in Echtzeit mit einfließen lassen kann.

Mit KI-Technologie zum Wissensvorsprung

Bei sich wiederholenden und mühsamen Aufgaben sind virtuelle, hyperrealistische Avatare durchaus in der Lage, uns Menschen zu unterstützen. Dass ein Digital Human einen echten Menschen in naher Zukunft ersetzt, ist allerdings unwahrscheinlich. Die Gründe dafür sind vielseitig. Zu einen sind die meisten Digital Humans noch blind, sie stützen ihre Interaktion bis dato ausschließlich auf das Hören. Dies wird auch aber auch in naher Zukunft gelöst, wenn man mittels Kameras auch die Stimmung und Mimik des menschlichen Gegenübers abschätzen kann. Zum anderen ist die heutige KI ausschließlich in der Lage, Informationen aus der Vergangenheit zu verwenden und daraus neue Inhalte zu erstellen. Wenn innovative Lösungen nicht nur gefunden werden sollen, sondern vor allem in Geschäftsprozesse eingebunden werden, bleibt der Mensch als Wesen zentral.

Und dann wäre da noch die ethischen Komponenten, über die Unternehmen sich Gedanken machen müssen, wenn sie auf die Hilfe von Rose, Nola, Selena & Co. setzen. Dazu zählen der Daten- und Identitätsschutz sowie eine gute digitale Ethik mit entsprechend vorgegebenen Regeln. Sind diese Punkte hoch qualitativ sichergestellt, können generative KI und Digital Humans zu echten Assistenten werden, die den Menschen begleiten und in der Lage sind, Informationen zu sammeln, sinnvoll aufzubereiten, im Dialog zu kommunizieren und sich somit in unseren Dienst zu stellen. Die dafür notwendigen Technologien sind weitestgehend verfügbar. Es liegt also an den Unternehmenslenkenden und der Gesellschaft, sie gewinnbringend einzusetzen. Und sich damit nicht nur einen Wissensvorsprung, sondern auch einen Wettbewerbsvorteil zu sichern.

Thorben Fasching, Executive Partner, und Rene Schulte, Senior Manager und Head of 3D und Quantum Computing Practices, beide bei Reply

^{1 https://www.reply.com/de/newsroom/events/rose-the-digital-human

2 https://newzealand.ai/case-studies/uneeq-noel-leeming-digital-humans

3 https://www.cib.hu/en/Maganszemelyek/our_world/learning_center.html

4 https://www.youtube.com/watch?v=3WuV_JtS6O0

5 https://www.prnewswire.com/news-releases/mayamd-brings-the-future-of-ai-healthcare-home-to-your-tv-in-collaboration-with-lg-nova-301454619.html}

Nächste Seite

1 2 3