Spracherkennung – die Anfänge

Von Audrey bis Alexa

7. April 2020, 16:30 Uhr | Autor: Folker Lück / Redaktion: Alexandra Hose

Fortsetzung des Artikels von Teil 1

Verstehen, transkribieren, steuern

Spracherkennung Voice Assistant
Digitale Assistenten beherrschen nicht nur das Transkribieren von Texten, sondern sagen auch, wie das Wetter morgen wird. Spracherkennung etablierte sich im Massenmarkt jedoch nicht auf dem PC, sondern auf dem Smartphone. 
© Olena Kychygina/123rf

Siri dient bis dato als eine Art persönliche digitale Assistentin – das Transkribieren von Texten beherrscht sie zwar auch, doch das steht nicht im Mittelpunkt ihrer Arbeit. Siri sagt uns, wie das Wetter morgen wird und weiß auch, in welchem Kino in der Nähe ein bestimmter Blockbuster läuft. Im Zusammenspiel mit dem Apple Home-Kit beherrscht sie es selbstverständlich auch, verschiedene Steuerungsaufgaben im Smart Home in die Wege zu leiten. Siri geht auf ein Forschungsprojekt zurück, das von der US-Militärbehörde DARPA finanziert und dann in eine eigene Firma ausgegründet wurde. Im Jahr 2010 übernahm Apple das Unternehmen für schätzungsweise 200 Millionen US-Dollar. Siri wurde von Beginn an mit den zentralen iOS-Apps wie Kontakte, Kalender, Text-Nachrichten und Wetter verknüpft. Längst unterstützt die Technologie aber auch Suchen via Google, Bing, Yahoo, in Google Maps oder Wikipedia.

Die Intelligenz hinter Siri & Co. ist nicht im Smartphone untergebracht, sondern auf zentralen Servern. Ähnlich funktionieren auch die aktuellen Spracherkennungssysteme von Google („Google Now“) und Microsoft („Cortana“). Die aufgezeichneten Töne werden über das Netz an einen Server übertragen und dort analysiert. Die Antworten des Systems werden dann wiederum auf das Smartphone zurückgespielt. Offizielle Angaben dazu gibt es nicht, aber es gilt als sicher, dass hinter der Spracherkennung von Siri die Technologie von Nuance steckt. Auch Samsung und andere Smartphone-Hersteller zählen zu den Kunden des US-Unternehmens.
Nachdem Siri auf dem Smartphone ziemlich viele Freunde fand, gelang Amazon mit Alexa der Weg bis hinein ins Wohnzimmer der Anwender. Die intelligente, persönliche Assistentin Alexa „wohnte“ zuerst in Amazon Echo, einem smarten Lautsprecher. Er greift ähnlich wie Siri auf diverse herstellereigene Dienste sowie Dienste von Drittanbietern zu. Das Gerät wurde erstmals im Juni 2015 in den Vereinigten Staaten verkauft und erreichte Ende Oktober 2016 auch den deutschen Markt. Mittlerweile kann Alexa auch in anderen Amazon-Produkten, aber auch in Lampen von IKEA oder in verschiedenen HiFi-Systemen genutzt werden.

Immer in Bereitschaft
Die Echo-Geräte sind so konzipiert, dass sie im Bereitschaftsmodus die Sprache zunächst geräteintern verarbeiten und auf ein Aktivierungswort warten. Mittels gesprochener Aktivierungswörter wie etwa „Alexa“ oder durch Drücken einer Aktionstaste wird die eigentliche Sprachsteuerung eingeleitet. Im Folgenden überträgt das Gerät dann die im Raum gesprochenen Worte digitalisiert zu Amazon. Lokal ist das Gerät dazu über ein WLAN-Netzwerk mit dem Internet verbunden, Audio und Fernsteuerung per Bluetooth mit den Protokollen A2DP beziehungsweise AVRCP. Die einzelnen Phasen zwischen Bereitschaft, Spracherkennung und -verarbeitung zeigt das Gerät über farbige Leuchten an. Die Sprachsteuerung kann auch gänzlich abgeschaltet werden.

 Viele Datenschützer sehen die Fortschritte in der Spracherkennungstechnologie mit gemischten Gefühlen: Einerseits macht die Technologie unser Alltagsleben komfortabler und kann gerade für körperlich beeinträchtigte Menschen eine wertvolle Hilfe darstellen. Andererseits: Die Daten jeder gesprochenen Information landen auf US-Servern. Die zentrale Speicherung soll dazu beitragen, dass sich die Erkennungsquote der Systeme ständig verbessert und sie immer präziser werden. Da auf diese Weise aber auch nachvollziehbar ist, wer wo welche Informationen zu einem bestimmten Thema haben will, macht die Spracherkennung ihre Nutzer ziemlich gläsern. Die Verwendung solcher Informationen für die werbetreibende Wirtschaft wird von den Anwendern wissentlich oder unfreiwillig akzeptiert. Alles halb so wild? Spätestens dann, wenn auch die Behörden staatlicher Organisationen auf solche Informationen zugreifen können, ist der Überwachungsstaat Wirklichkeit geworden. Trotz der zunehmenden Verbreitung stehen Anbieter also vor der Herausforderung, ihre Dienste sicher in jedem Sinne zu gestalten und so das Vertrauen der Nutzer zu erlangen.


  1. Von Audrey bis Alexa
  2. Verstehen, transkribieren, steuern

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Amazon Web Services

Weitere Artikel zu IBM Deutschland GmbH

Weitere Artikel zu Apple GmbH

Matchmaker+