Für ein detailliertes digitales Abbild der realen Welt ist Reality Capturing notwendig – besser bekannt als 3D Scanning. Dieses Verfahren erfasst die Geometrie, das Aussehen und die sensorischen Eigenschaften von physischen Räumen, Objekten, Bewegungen und Personen. Die Technik eignet sich beispielsweise für die Erstellung digitaler Zwillinge von Umgebungen, Gebäuden und Maschinen.
Wie der Benutzer eine virtuelle 3D-Welt wahrnimmt, hängt wesentlich davon ab, wie realistisch physikalische Effekte wie das Fließen von Wasser oder das Fallen eines weichen Stoffes dargestellt werden. Für solche Echtzeitsimulationen greifen die Entwickler heutzutage auch auf KI und synthetische Daten zurück. Denn oft ist es zu aufwändig und zu teuer, die entsprechenden Informationen in der realen Welt für das Training von angepassten KI-Modellen zu sammeln.
Synthetische Daten werden mit Hilfe von 3D Rendering oder KI erzeugt, genauer gesagt durch generative KI. Damit können Entwickler beispielsweise synthetische Daten für die Simulation von Tönen und Geräuschen erzeugen. Ein Beispiel aus der Praxis: Architekten und Entwickler können mit solchen Daten geplante Lärmschutzmaßnahmen an 3D-Modellen von Gebäuden und Fahrzeugen testen.
Fortschritte auf dem Gebiet der KI, der natürlichen Sprachverarbeitung (Natural Language Processing, NLP), großen Sprachmodellen (Large Language Models, LLMs), der KI-gestützten Bildverarbeitung (Computer Vision) und der 3D-Modellierung machen es möglich, lebensechte digitale Menschen zu erzeugen. Haare, Haut, Augen, Statur und Bewegungen entsprechen denen realer Menschen. Gleiches gilt für die Verhaltensmuster der Digital Humans und ihre Fähigkeit, Gespräche zu führen oder die Stimmung ihres Gegenübers zu erfassen.
Ein digitaler Mensch im Kundensupport erkennt beispielsweise anhand der Sprechweise und Gestik seines Gegenübers, ob dieser eventuell verärgert ist – und passt Sprache und Mimik entsprechend an. Dies erfordert auch den Einsatz von KI-Techniken wie Conversational AI (KI-gestützte Dialogsysteme) zur Erfassung von Sprachinformationen und generativer KI zur Generierung von Text-, Bild-, Video- oder Audiodaten.