Wo Künstliche Intelligenz an ihre Grenzen stößt und warum Usability Tests mit realen Personen, insbesondere im Voice User Interface Design, unverzichtbar sind: Wenn das Chinese-Rooms-Experiment auf Wizard-of-Oz-Testing trifft.
Wie kann es sein, dass in Entwicklungslaboren für hochintelligente Voice-Technologie aus Kartons gebastelte Küchenkulissen entstehen, in denen Menschen versuchsweise mit Klopapierrollen per Sprache interagieren? Gibt es nicht inzwischen neuere, technologisch innovativere Methoden, Voice-Anwendungen mit Informationen zu füttern, um so Usability-Tests durchzuführen? Die Antwort auf diese Frage: selbstverständlich. KI-Software ist heute schon intelligent genug, riesige Datenmengen zu scannen, nach Mustern zu selektieren und selbst zu lernen. Aber bei der Vorhersage menschlichen Verhaltens oder der Einberechnung menschlicher Fehler stößt KI oft an ihre Grenzen.
Das Gesprochene ist das älteste Interface, sozusagen das “Mensch-Mensch-Interface” und entstand vor mehr als 1,5 Millionen Jahren. Mensch-Maschine-Interfaces hingegen gibt es seit der zweiten Hälfte des letzten Jahrhunderts. Wenn wir nun erreichen wollen, dass Nutzer auf eine natürliche Art und Weise mit unseren Sprachanwendungen kommunizieren, dann impliziert dies, ihnen ein möglichst freies Sprechen zu ermöglichen. Beim Erstellen von Einkaufslisten würde dies bedeuten, dass die Aufforderung “Alexa, schreibe Orangensaft und Kochschinken auf die Einkaufsliste” eben nicht in dem Eintrag ‘Orangensaft und Kochschinken’ resultiert, sondern in zwei separaten Listeneinträgen. Spätestens, wenn der Nutzer im Supermarkt frustriert feststellt, dass der so intelligent anmutende Sprachassistent chaotische Listeneinträge erstellt hat, wird er wahrscheinlich dazu übergehen, seine Listen wieder per Hand zu schreiben. Oder aber in Zukunft genervt monoton jedes Stück einzeln der sprachgesteuerten Einkaufsliste hinzufügen.
Dabei könnte es doch so einfach sein: “Alexa, Milch und Käse sind alle” oder “Alexa, wir brauchen Eier”. Funktioniert aber nicht. Als Antwort erhält man bei ersterem Input derzeit nur ein resigniertes “Pling-Blümm”, bei letzterem versucht uns Alexa tatsächlich direkt online Eier bei Amazon zu bestellen. Denn: Den Bedeutungszusammenhang der Sätze mit der Intention, diese Dinge der Einkaufsliste hinzuzufügen, erkennt die Sprachsoftware nicht von sich aus. Rein technisch gesehen fehlt Alexa der Code dafür, dies entsprechend zu interpretieren. So ist im Code auch nicht vorgesehen, mehrere Artikel innerhalb eines Befehls zu unterscheiden.
Diese semantischen Defizite von KI demonstrierte bereits der Philosoph John Searle 1982 mit einem Gedankenexperiment.
Syntax vs. Semantik im Chinesischen Zimmer
Mit seinem Gedankenexperiment “Das Chinesische Zimmer” zeigt Searle folgendes: Eine Software oder KI ist nicht zwangsläufig dadurch intelligent, dass sie ein passendes Programm ausführt. Vielmehr erscheint sie nur intelligent: Das Chinesische Zimmer ist ein geschlossener, nicht einsehbarer Raum, in dem sich eine Person aufhält. Ein Mensch, der sich außerhalb des besagten Raumes befindet, schiebt ein Blatt Papier mit einer in chinesischen Schriftzeichen geschriebene Frage durch einen Schlitz in der Wand. Nach einiger Zeit bekommt er am anderen Ende des Raumes die Antwort auf die gestellte Frage – und zwar ebenfalls in chinesischen Schriftzeichen – durch einen weiteren Schlitz herausgegeben. Die Annahme, die er nun aller Wahrscheinlichkeit nach trifft, lautet: In dem Raum befindet sich ein Mensch, der Chinesisch beherrscht und mit diesem Wissen die aufgeschriebene Frage schriftlich beantwortet. Gehen wir davon aus, dass der Mensch in dem Raum keinerlei Chinesisch versteht, die in chinesischer Schrift gestellte Fragen aber anhand einer in seiner Muttersprache verfassten Anleitung beantwortet, stellt sich diese Wahrnehmung als irreführend heraus.
Das Chinesische Zimmer |
---|
Das Chinesische Zimmer ist der Name für ein Gedankenexperiment des Philosophen John Searle. Mit seiner Hilfe versucht Searle die Meinung zu widerlegen, dass digitale Computer allein dadurch Bewusstsein erlangen könnten, dass sie ein passendes Programm ausführen. |
Dieses fiktive Experiment sollte zeigen, dass ein Computer ein Programm ausführen und regelbasiert Zeichenreihen generieren kann, ohne die Bedeutung der Zeichen an sich zu verstehen – selbst, wenn er den Eindruck erweckt, ‘schlau’ zu sein, ist dies nicht der Fall. Die bloße Fähigkeit, Syntax zu befolgen, soll nach Searle also nicht gleichzeitig auch zu dem Verständnis der Semantik befähigen.
Mit der Syntax menschlicher Sprache ist die grammatikalische Struktur, sozusagen der Aufbau, des Gesprochenen gemeint. Sprachanwendungen kommen damit gut zurecht, diese Strukturen zu erkennen. Handelsübliche Smart Speaker können verbale Aussagen effektiv erfassen und als Speech-to-Text verarbeiten, das heißt, die Schallwellen des Gesagten in Computersprache umwandeln.
Bei Semantik hingegen handelt es sich um die Bedeutung des Gesprochenen. Um die tatsächliche Aussage eines Satzes deuten zu können, beziehen Menschen viele weitere Faktoren in ihre Interpretation ein: zum Beispiel spielen Mimik, Stimmlage, erweiterter Kontext und Ironie eine wichtige Rolle. Besonders ironische Anmerkungen, die oft genau das Gegenteil des Syntaktischen zum Ausdruck bringen sollen, sind für KI-Anwendungen nahezu unerkennbar als solche. Kurzum: Rein syntaktisch Sätze wie “Das hast du ja wieder toll hingekriegt!” oder “Mensch, so ein Kleid habe ich noch nie gesehen!” ohne Kontext sind semantisch kaum zuzuordnen.
Wenn Künstlicher Intelligenz semantische Fähigkeiten fehlen und Machine Learning bei der Deutung menschlichen Verhaltens und menschlicher Fehler an seine Grenzen stößt, hat das großen Einfluss auf die Entwicklung im Voice User Interface Design: Alle notwendigen und möglichen semantischen Zusammenhänge und Sprachbausteine müssen folglich in von der Software erkennbare Muster umgewandelt werden. Je mehr semantische Zusammenhänge bei der Programmierung berücksichtigt werden, desto besser ist die Anwendung.