Touch vs. Voice

Mit Sprachinterfaces Altershürden überwinden

6. August 2020, 15:41 Uhr | Autorinnen: Julia Saswito und Maria Müller / Redaktion: Diana Künstler

Fortsetzung des Artikels von Teil 1

Multimodalität, Sprachbesonderheiten und passende Tonalität

3. Weiß der Nutzer, wie man ein Sprachinterface bedient?
Einen Sprachassistenten einzurichten, ist in der Regel kein Hexenwerk. Doch gerade Senioren benötigen Hinweise, was genau eine Anwendung leisten kann. Begrüßt eine Anwendung den Nutzer mit den Worten “Was kann ich für Sie tun?”, handelt es sich um einen offenen Dialog, der durchaus hohen Erwartungen gerecht werden muss. Hilfreicher und zielführender wird es, wenn der Skill direkt darauf hinweist, dass man mit seiner Hilfe zum Beispiel ein Regal aufbauen kann – und gleichzeitig noch ein paar Beispielbefehle anführt. Trotz aller Vorteile der Sprachtechnologie: Für manche Art Interaktionen ist ein Bildschirm oder eine Tastatur sinnvoll. Etwa wenn die Informationsdichte hoch und die Zusammenhänge komplex sind – wie bei Inhaltsstoffe-Listen oder Medikamenten-Beipackzetteln. Für solche Anwendungsfälle eignen sich multimodale Sprachinterfaces, sogenannte Smart Displays – sie sind via Sprache bedienbar, zeigen aber ausgewählte Inhalte auf dem Touch-Bildschirm an.

4. Ist der Skill in der Lage, auf Sprachbesonderheiten einzugehen?
Lispeln, Fehler in der Grammatik oder der Syntax sind bei kleinen Kindern normal und entwicklungsbedingt. Aber nicht nur Kinder drücken sich manchmal unverständlich aus. Dialekt, falsch ausgesprochene Fremdwörter oder Umgangssprache muss das Natural Language Processing ebenso erkennen und verarbeiten können wie Ironie oder Sarkasmus. Die Bandbreite der bei den Spracheingabevarianten anzulegenden Fragen und Befehle reicht hier von einem gelispelten „Is will eine Gesiste hören“ über “Wie mache ich Gnodschies selbst?” bis hin zu „”Zoig mir a Rezept für Bräschdlensgsälz!”.

5. Inwiefern kann sich die Anwendung auf ihr Gegenüber einstellen?
Faktoren wie Tempo, Lautstärke, Stimmfarbe und Art der Wiedergabe beeinflussen die Akzeptanz bei ganz jungen und auch bei sehr alten Anwendern. Kleinere Kinder lieben Wiederholungen und weichere, höhere Tonlagen. Sie sprechen Alexa gerne auch mal flüsternd an und freuen sich, dass der Sprachassistent dann ebenfalls im Flüstermodus antwortet. Bei einem Skill für Senioren müssen Alexa & Co. entsprechend langsamer und lauter reden, damit sie es verstehen. Der Befehl “sprich langsamer” reduziert daher die Grundgeschwindigkeit der Sprachausgabe – sogar in zwei Stufen. Für Ungeduldige funktioniert das natürlich auch in die andere Richtung.

Julia Saswito und Maria Mueller, Triplesense Reply
Julia Saswito (links), Practice Leader Reply Digital Experience und geschäftsführende Partnerin bei Triplesense Reply und Maria Müller, Voice UX-Spezialistin bei Triplesense Reply
© Triplesense Reply

6. Wie klingt die Sprachanwendung natürlicher und weniger mechanisch?
Sogenannte TTS (Text-to-speech)-Engines, quasi die Stimmen von Alexa & Co., kommunizieren im Standard-Modus extrem emotionsarm. Gerade bei der Interaktion mit Kindern, wo es mitunter darum geht zu motivieren, reicht das nicht aus. Voice-User-Interface-Experten haben hier zwei Möglichkeiten: Entweder sie beauftragen professionelle Sprecher für Tonaufnahmen. Das ist im Ergebnis sehr überzeugend, allerdings auch kostenintensiv, müssen doch bei jedem Skill-Update neue Aufnahmen eingesprochen werden. Oder aber sie nutzen eine der vielfältigen Möglichkeiten, die SSML (Speech Synthesis Markup Language) bietet: Verschiedene Stimmen, Betonungen, Ausrufe (Speechcons), Sprechpausen, Lautstärken und Geschwindigkeiten lassen sich anwählen, um den gesprochenen Text natürlicher zu gestalten. So schwingt in einer Antwort von Alexa plötzlich ein Hauch von Begeisterung oder Enttäuschung mit. Allerdings: Wer sich hier austoben will, sollte sich entsprechend in Linguistik, Parasprache und Prosodie auszukennen, damit ein Gefühl oder eine Stimmung dann tatsächlich auch angemessen eingesetzt wird. Grundsätzlich ist es ratsam, in puncto SSML den technologischen Fortschritt im Auge zu behalten, denn es kommen ständig neue Optionen und Refinements hinzu.

Abschließend lässt sich festhalten: Je spezifischer eine Voice-Anwendung eine Zielgruppe anspricht – mit sinnvollen, auf das Alter und den Nutzungskontext abgestimmten Inhalten, der passenden Tonalität und altersspezifischen Sprachbesonderheiten –, desto besser kommt sie an. Und ersetzt so ganz früh und im hohen Alter so manch andere Kommunikationsform.


  1. Mit Sprachinterfaces Altershürden überwinden
  2. Multimodalität, Sprachbesonderheiten und passende Tonalität

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Reply Deutschland SE

Matchmaker+