Spracherkennung und -verarbeitung setzen einen entsprechenden Arbeitsspeicher und Prozessorkapazität voraus, den jedoch nicht alle mobilen Endgeräte bieten können. Außerdem kann es vorkommen, dass der angeforderte Inhalt gar nicht auf dem Gerät selbst liegt, wie es zum Beispiel bei aktuellen Verkehrsinformationen der Fall ist. Deshalb kommt in diesem Fall ein Cloud-basierter Sprachdienst zum Einsatz. Bei dieser Technologie wird – wie im vorangegangenen Abschnitt beschrieben – der Content innerhalb von Millisekunden in der Cloud transkribiert.
Auch wenn der Trend immer mehr hin zu Cloud-basierten Lösungen geht, überwiegt derzeit noch die Anzahl von integrierten, so genannten „Embedded“-Lösungen deutlich. Zu diesen zählen unter anderem die seit Jahren etablierten
Lösungen in Automobilen und Navigationsgeräten, sowie zum Beispiel Name-Dialing-Lösungen in Mobiltelefonen (Telefonnummer wählen per Spracheingabe). Im Automobil ermöglicht der Einsatz von ASR (Automatic-Speech-Recognition; automatische Spracherkennung) und TTS (Text-to-Speech; Sprachsynthese), dass sich der Fahrer relativ störungsfrei dem Verkehr widmen kann. Zwar wird die Konzentration durch die Sprachsteuerung ebenfalls beeinträchtigt, aber in weit geringerem Maße als dies bei einer GUI-basierten (Graphical-User-Interface) Steuerung der Fall wäre, wo visuelle Systemrückmeldungen und manuelle Eingaben eine Rolle spielen.
Google meint
Stefan Keuchel, Pressesprecher von Google Deutschland: „Beide Technologien – Cloud-basiert und Embedded – haben Vor- und Nachteile. Wenn die Spracherkennung nur lokal auf einem PC oder einem Handy erfolgt, dann müssen natürlich das Sprachmodell und das akustische Modell sehr viel kleiner sein, um auf den eingebauten Speicher Platz zu finden. Der Algorithmus kann also nicht auf so viele Informationen zurückgreifen. Die CPU so eines Sys-tems hat natürlich auch nur eine beschränkte Kapazität, kann also nur weniger verschiedene Möglichkeiten des statistischen Modells erforschen. Die Vorhersage kann also ungenauer sein. Wenn die Spracherkennung dagegen im Rechenzentrum passiert, dann können wir sehr viel gründlicher vorgehen. Ein Cloud-basiertes System kann auch sehr viel schneller lernen und sich anpassen. Dafür braucht der Nutzer aber eine Datenverbindung und die kann unter Umständen den Vorgang etwas verlangsamen. Es hängt also etwas von der Anwendung ab, welches System besser geeignet ist.“