Mobilfunkdienste

Die Macht der Sprache

10. März 2011, 16:04 Uhr | Diana Künstler, Redaktion funkschau
© fotolia.com / funkschau

Ob als Übersetzer, Suchhilfe, Vorleser, professionelles Diktiergerät oder einfach nur als Eingabehilfe – Sprachlösungen auf Smartphones können den beruflichen Alltag ungemein erleichtern.

Generell unterscheidet man bei Sprachlösungen zwischen solchen, die Sprache in Text umwandeln (Speech-to-Text bzw. Voice-to-Text) und jenen, die umgekehrt aus vorhandenem Text Sprache synthetisieren (Text-to-Speech). Erstere ist unter Nutzern weitaus verbreiteter.
Während Speech-to-Text-Lösungen dem Nutzer vorwiegend das Diktieren und Suchen erleichtern, dienen Text-to-Speech-Lösungen – wie der Name schon sagt – vor allem der Audioausgabe von Text. Ein Beispiel hierfür ist „WebTalks“. Dabei handelt es sich um eine kostenlose Applikation für Android-Smartphones, die News-Feeds vertont. Man diktiert die gewünschte Internetseite in das Smartphone oder wählt unter beliebten Webseiten aus und die Applikation liest die aktuells-ten Posts von dieser Seite vor – bisher jedoch nur in Englisch. Besonderst geeignet ist solch eine Lösung natürlich für jene, die oft mit dem Auto oder öffentlichen Verkehrsmitteln unterwegs sind und nicht ständig das Smartphone in der Hand halten können. Aus diesem Grund ist in  „WebTalks“ unter anderem auch eine Sprachsteuerung für das Navigieren durch das App-Menü implementiert.

Wie funktioniert Spracherkennung?
Spracherkennungslösungen sind komplex und verschiedenartig. Im Folgenden zwei Beispiele:

Bei Google: Die Google-Sprachsuche erlaubt es den Benutzern von Smartphones, wie zum Beispiel Android, I-Phone oder Blackberry eine Google-Suchanfrage direkt in ihr Handy zu sprechen. Auf dem Handy wird die Aufnahme in Echtzeit komprimiert und über die Datenverbindung an ein Google-Rechenzentrum gesendet. Die Aufnahme wird anhand eines akustischen Models in Phoneme zerlegt. Dies sind die einzelnen Laute, aus denen wir Wörter formen. Zur Erkennung der Phoneme benutzt Google ein Vokabular mit über einer Million Wörter, wo nahezu jedes bekannte Wort in einer Sprache in diese Laute zerlegt vorzufinden ist. Statistische Modelle helfen, die richtigen Phoneme in der Aufnahme zu identifizieren. Nicht immer ist dabei hundertprozentig sicher, ob die Phoneme zu den richtigen Wörtern zusammengesetzt worden sind. Hier kommt das Sprachmodell ins Spiel. Das Sprachmodell analysiert die Wahrscheinlichkeit, dass bestimmte Wörter aufeinander folgen. Das Google-Sprachmodell für die Sprachsuche wird mit hunderten von Milliarden Suchanfragen trainiert. So wird zum Beispiel geschaut, wie oft das Wort „gut“ dem Wort „sehr“ in hundert Milliarden Anfragen folgt. So kann statistisch berechnet werden, welche genaue Wortfolge aus oft tausenden von Möglichkeiten am wahrscheinlichsten ist. Dem Benutzer schickt Google schluss-endlich die „beste Annahme“ zusammen mit den nächst besten Vorschlägen zurück. Liegt Google falsch, können die Benutzer  aus den nächstbesten Vorschlägen die richtige Wortfolge wählen. Daraus lernt das System und das Sprachmodell kann sich kontinuierlich verbessern

Bei Nuance: Das Voicemail-to-Text-System von Nuance Communications, Anbieter von Sprach- und Bildverarbeitungslösungen, funktioniert ähnlich, da es ebenfalls über einen Server – also Cloud-basiert – abläuft: Ein Anrufer spricht auf die Voicemail beziehungsweise den Anrufbeantworter. Die Nachricht wird anschließend in die „Cloud“, zu einem Server von Nuance, gesandt und dort trans-kribiert. Dieser Transkriptions-Prozess sieht wie folgt aus: Nach einem Filter zur Qualitätsprüfung folgen drei Erkennungs-Engines, die ihre Ergebnisse abgleichen, um das Wort mit der höchsten Wahrscheinlichkeit zu definieren. Danach folgt eine Adaptionsschicht zur Optimierung der Ergebnisse. Das kann nach Sprecher- oder Handyprofil erfolgen. Nuance hat für jedes Handy oder Telefon zudem ein charakte-ristisches Geräuschprofil hinterlegt. Um absolut sicher zu gehen, hat der Anbieter außerdem für den medizinischen Bereich eine zusätzliche Weiche zur Qualitätssicherung eingebaut: 1.500 medizinisch ausgebildete Transkriptoren gehen hier jedes Wort noch einmal durch, das nicht 100-prozentig genau erkannt worden ist. Abschließend wird die transkribierte Nachricht zurück an das Voicemail-System geleitet, wo sie als SMS oder auch als E-Mail ausgegeben werden kann.

Anbieter zum Thema

zu Matchmaker+

  1. Die Macht der Sprache
  2. Cloud-basiert versus Embedded
  3. Einsatzszenarien – Das Smartphone als …
  4. Masse und Klasse
  5. Ausblick
  6. Interview mit Nuance: "Sprache als komplementäres Mittel"
  7. Ausgewählte Sprach-Apps Teil I
  8. Ausgewählte Sprach-Apps Teil II

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Digital Workplace

Matchmaker+