KI nimmt zunehmend Einfluss auf unser Kommunikations- und Interaktionsverhalten. Wie es mithilfe von innovativer Technologie gelingen kann, die Mensch-Maschine-Interaktion empathischer zu gestalten und inwiefern Machine Learning hilft, Bots für immer komplexere Aufgabenstellungen zu befähigen.
Wir kommunizieren mit Chatbots, shoppen via Sprachassistenten und machen uns – speziell auch im B2B-Bereich – Roboter zu Nutze. Trotz aller Vorteile, die die Mensch-Maschine-Interaktion für Unternehmen wie Nutzer mit sich bringt: Oft scheitert der Einsatz von Künstlicher Intelligenz (KI) noch daran, dass sie die Komplexität menschlicher Kommunikation in sprachlicher, empathischer und emotionaler Hinsicht nicht abbilden kann. Denn ein Sprachassistent, der nicht reagiert, wenn ihn der User im Dialekt anspricht, bringt ebenso wenig für die durch KI erhoffte Entlastung für Unternehmen und ihre Mitarbeiter wie das Tool des Sozialamtes, das bei der Festlegung von Leistungsansprüchen nur auf Grundlage vorhandener Zahlen agiert und wichtige Aspekte wie Krankheiten nicht berücksichtigt.
Empathische Interaktion mit flexiblen Intents
Damit virtuelle Assistenten, die für viele als Nachrichtensprecher, Wetterexperten oder Wochenendplaner bereits zum sozialen Gefüge dazugehören, weniger als Maschine, sondern als ernstzunehmender Freund und Helfer wahrgenommen werden, muss erforscht und verstanden werden, wie mehr Emotionalität und Empathie in die Beziehung zwischen Mensch und Maschine gelangen können. Denn je menschlicher eine Maschine erscheint, umso menschlicher verhalten wir uns auch ihr gegenüber. Wie weit wir von diesem Ziel noch entfernt sind, zeigt sich daran, dass wir – der Klarheit oder Bequemlichkeit halber – Sprachassistenten meistens ohne Höflichkeitsfloskel ansprechen. „Alexa, welche Nachrichten gibt es heute?“.
Voice-User-Interface (VUI)-Designer arbeiten seit einigen Jahren mit Nachdruck daran, digitale Sprachinteraktionen dem menschlichen Verhalten anzupassen. So wollen sie eine plastische, nicht mechanische Interaktion mit der gleichen Wertigkeit wie in der rein zwischenmenschlichen Kommunikation kreieren. Um das zu erreichen, versuchen Designer und Programmierer, technische Skills weiterzuentwickeln und Sprachbefehle, sogenannte „Intents“, flexibel zu gestalten. Besonderes Augenmerkt gilt der Aussprache von Fremdwörtern und Akronymen. Erst wenn Alexa etwa „Limoncello“ korrekt artikuliert, wirkt das Erlebnis für den Nutzer menschlich. Technisch wird das wie folgt gelöst: Es gibt eine Markup-Sprache in der Aussteuerung von Alexa-Antworten, die dieses Problem beseitigen soll. Die Sprache heißt SSML (Speech Synthesis Markup Language) und wurde ursprünglich konzipiert, um die etwas monotone Aussprache der Geräte mit menschlicher Intonation und Modulation anzureichern: leiser oder lauter, mit „dramatischen Pausen“ versehen. SSML ermöglicht Programmierern, ausgewählte Begriffe als zum Beispiel italienisch zu kennzeichnen und diese automatisch mit der sprachspezifischen Betonung auszusprechen.
Es gilt, den Sprachgebrauch an die gesprochene Sprache anzupassen. Kommuniziert der Nutzer mit Sprachassistenten, sollte er künftig nicht gezwungen sein, über bestimmte Befehle oder nur durch exakt formulierte Abfragen an die gewünschte Information zu kommen. Stattdessen sollte er komplett frei und natürlich sprechen dürfen. Also statt „Alexa, bitte starte den Wetterbericht“ sollte Alexa auch auf die Fragen „Wird es heute regnen?“ oder „Brauche ich einen Regenschirm?“ reagieren.
Sprachliche Besonderheiten berücksichtigen
Bereits minimalste Nuancen von Sarkasmus, Dialekt, Slang, regionalen Gepflogenheiten oder Ironie haben erheblichen Einfluss auf die Bedeutung von Aussagen sowie auf eine befriedigende Kommunikation mit einem Sprachassistenten. Rein die Betonung des Satzes: „Sehr lustig, Alexa!“ entscheidet darüber, ob der gehörte Witz den Geschmack des Users wirklich getroffen hat. Auf der anderen Seite reagiert der norddeutsche Nutzer gegebenenfalls etwas irritiert, wenn ihm auf die Frage nach Rezeptvorschlägen für Marmelade von Alexa ein „Ribiesl-Gelée“ vorgeschlagen wird. Und so sind „Sentiment Analysts“ gefragte Spezialisten dafür, die Tonalität und verschiedene Ausprägungen menschlicher Sprache zu interpretieren, entweder gemäß des verstandenen Kontextes und der Tonalität zu beantworten oder im Falle von Unsicherheit um Klärung zu bitten.