Mensch-Maschine-Kommunikation

Der Aufstieg der Voice Interfaces

24. August 2021, 11:00 Uhr | Autoren: Maria Müller und Dan Fitzpatrick / Redaktion: Diana Künstler
Kann die natürlichsprachliche Form der Interaktion mittles CUI ihrem Image gerecht werden und einen Paradigmenwechsel in der Mensch-Maschine-Kommunikation einläuten?
© Karsten Neglia/123rf

Conversational User Interfaces (CUI) sind längst Teil des Alltags und mittlerweile auf Smartphones und im heimischen Wohnzimmer angekommen. Dabei sind sie nicht nur auf Sprachassistenten beschränkt. Chatbots oder Voice User Interfaces fallen ebenso darunter.

Im Alltag kommen mittlerweile ganz selbstverständlich Computer und mobile Endgeräte zum Einsatz. Doch moderne grafische Oberflächen – gleich wie gut sie implementiert sind – weisen mitunter Ähnlichkeiten mit Zwangsjacken auf, engen sie doch das mögliche Spektrum menschlicher Äußerungen und Interaktionen ein: So führt ein Mausklick nur einen einzelnen Befehl aus. Er erfüllt also nur eine einzige Funktion. Es spielt keine Rolle, ob man eine Tastatur verwendet den Trackball oder den Touchscreen: Interaktionen mit diesen Eingabehilfen sind künstlicher Natur und funktional stark limitiert.

Auf der anderen Seite verfügt der Mensch über wesentlich leistungsfähigere Eingabe- und Ausgabe-Geräte – nämlich über zwei Ohren und eine Stimme – was ihm eine nahezu unbegrenzte Bandbreite an Ausdruck und Verständnis ermöglicht. Weshalb sie also nicht einsetzen, um mit den digitalen Gegenstücken zu interagieren?

Veränderte Interaktionsgewohnheiten

Die ersten Spracherkennungsalgorithmen wurden bereits vor fast siebzig Jahren implementiert. Aktuell erfreuen sie sich eines exponenziellen Anstiegs in der Akzeptanz, wobei die Anzahl der Anwendungen und sprachgesteuerten Geräte seit 2018 jährlich steigt. So lag die Zahl der sprachfähigen Geräte weltweit Ende 2019 bei rund zwei Milliarden, Ende 2020 bei viereinhalb Milliarden. Bis 2024 sollen es acht Millarden sein. Die Gründe für das Wachstum liegen auf der Hand: Zum einen haben sich die Technologien zur Verarbeitung natürlicher Sprache verbessert. Zum anderen dient Conversational Design als Wissensbasis und sorgt dafür, dass sich Voice Interfaces angenehm und zuverlässig nutzen lassen. Menschen entwickeln neue Interaktionsgewohnheiten und setzen immer häufiger bereits vorhandene Sprachschnittstellen ein. Und das ganz intuitiv.

Neben leistungsstarken Machine-Learning-Modellen für die Sprach-erkennung tragen Technologien wie Sentimentanalyse, semantische Netzwerke, Ontologien und selbstlernende Konversationsbots dazu bei, dass Anwendungen die menschliche Sprache besser verstehen. Keine triviale Aufgabe: Menschliche Sprachmuster weisen nahezu unendliche Variationen in Syntax, Flexion, Vokabular, Tonalität und Semantik auf. Für die erfolgreiche Interpretation von Sprache gilt es außerdem, übergeordnete Faktoren wie Ironie, Sarkasmus, Metakontext und auch kulturelle Einflüsse zu berücksichtigen. Diese können die Bedeutung von Gesagtem leicht verdrehen oder komplett umkehren, wie folgende Aussage mit mehreren Bedeutungsebenen zeigt: „Was für ein faszinierendes Kleid! Ich glaube nicht, dass ich so etwas schon einmal gesehen habe.“ In einem ironischen Kontext betrachtet könnte dieser Ausruf wenig schmeichelhaft konnotiert sein.

Bis vor Kurzem war die Nutzung von Sprachschnittstellen bestenfalls eine lähmende Erfahrung – und schlimmstenfalls eine irritierende. Es mangelte vielerorts an Verständnis dafür, wie produktive menschliche Unterhaltungen funktionieren. Man übersah, dass Menschen Informationen von Natur aus anders hören und verarbeiten als beim Lesen. Das führte zu Sprachanwendungen, die ihren Benutzern langatmige Anweisungen, hierarchische Menüs und unübersichtlich lange Listen und Optionen präsentierten. Hier zeigte sich: Die Annahme, dass Informationen unabhängig von Kanal oder Medium erfolgreich vermittelt werden können, war und ist schlicht falsch. Doch diese Zeiten sind vorbei. Zwar stoßen Conversational-Interaktionen ab einem gewissen Grad an Interdependenz und Interaktionsdichte immer noch an ihre Grenzen – etwa bei der Konfiguration und dem Kauf eines neuen Autos. Dennoch: Sprachschnittstellen setzen sich als Interaktionsmedium mit der digitalen Umgebung weiter durch. Und eine neue Generation von Designern und Entwicklern treibt diese „Conversational Revolution“ regelrecht voran. Sie wissen, wie man komplizierte Navigationsmenüs auflöst, wie sich Nutzererwartungen steuern lassen und wie man gleichzeitig personalisierte, kontextbezogene Dialoge für einen natürlichen Gesprächsfluss kreiert. Ein Beispiel: Um eine Pizza-Bestellung via Sprachinterface möglichst nutzerfreundlich zu gestalten, muss der Nutzer bei der ersten Order angeben, ob er bestimmte Vorlieben oder Allergien gegen bestimmte Inhaltsstoffe hat. Die Anwendung speichert die Anweisungen für zukünftige Besuche. So lässt sich dieser Part beim nächsten Mal überspringen. Statt in sieben oder acht Schritten, wie es oft in Onlineshops der Fall ist, fühlt sich die Pizza-Bestellung per Sprachanwendung fast so an, als würde man im Restaurant mit dem Kellner kommunizieren. Und das ist noch nicht alles: Designsprachen wie SSML (Synthetic Speech Markup Language) ermöglichen es Designern, Sprachaus-gaben zu generieren, die die feinsten Nuancen der menschlichen Sprache effektiv imitieren. Emotionen, Zwischenrufe, Akzente, Änderungen in Tonhöhe, Lautstärke und Geschwindigkeit – sogar Atemgeräusche – lassen sich integrieren. Die Sprachausgabe der neuesten Sprachassistenten-Generation klingt immer weniger roboterhaft. All dies sind Belege dafür, dass die Conversational Revolution gerade rasant voranschreitet. Es bleibt spannend.

Maria Müller, Head of Conversational Design, und Dan Fitzpatrick, Business Unit Director – Conversational Solutions, beide Triplesense Reply

„Conversational Solutions“ war eines der Themen, die auf der Xchange vorgestellt und diskutiert wurden. Die Reply Xchange ist die jährliche Veranstaltung zu Innovationen und Technologien für Reply-Kunden und -Mitarbeiter und fand online Mitte Juni statt.


  1. Der Aufstieg der Voice Interfaces
  2. B2B-Anwendungsbereiche für Conversational Interfaces

Das könnte Sie auch interessieren

Verwandte Artikel

Reply Deutschland SE

Matchmaker+