Voice over IP bietet Unternehmen eine flexible Plattform zum Aufbau interaktiver Kommunikationsdienste. Hierzu zählen beispielsweise sprachgesteuerte Vermittlungssysteme, automatisierte Ansagedienste oder Legitimierungsverfahren zum Abruf sensibler Daten. Die Internetorganisation IETF hat hierfür mit dem Media Resource Control Protocol ein universelles Applikationsprotokoll kreiert. MRCP bietet Sprachapplikationen in VoIP-Netzen über ein herstellerunabhängiges API Zugriffe auf die Dienste von Mediaservern.
Alle am Weltmarkt bedeutenden Anbieter von Softwareprodukten für IT-gestützte Telefonanwendungen
bieten derzeit Lösungen mit MRCP-Version 1. Seit Oktober 2005 ist die MRCP-Version 2 (MRCPv2) als
Draft-Dokument bei www.ietf.org verfügbar. Der aktuelle Funktionsumfang von MRCPv2 bietet Zugriffe
auf Dienste wie Spracherkennung, Sprachsynthese und Sprecherverifizierung im Rahmen von teilweise
oder vollständig automatisierten Telefonanwendungen mit Sprachdialogsystemen. Bild 1 zeigt die
Protokollarchitektur von MRCPv2.
Als offener Standard bietet MRCPv2 eine problemlose und damit schnelle Integration von
Softwareprodukten für Spracherkennung, Sprachsynthese und Sprecherverifizierung von
unterschiedlichen Herstellern. Das Protokoll dient als "Übersetzer" der je nach Hersteller
unterschiedlichen APIs an der Schnittstelle zwischen den Clients mit Sprachapplikationen und dem
Mediaserver. Zu den wichtigsten Aspekten von MRCPv2 zählen:
Einheitlichkeit: Die Entwicklungsmethodik von MRCPv2 ist für Produkte
unterschiedlicher Hersteller identisch. Dies erleichtert die Entwicklung und Integration neuer
Lösungen.
Vereinfachung der Architektur: Das Protokoll definiert eine klare
Netzwerkstruktur und Aufgabenteilung zwischen Client und Server.
Brücken zum Internet: MRCPv2 ist ein webbasierendes Protokoll und kombinierbar
mit verschiedenen anderen Mediaprotokollen – wie SOAP (Simple Object Access Protocol) für
Datenbankzugriffe und RTSP (Real Time Streaming Protocol) für Audio- und Videoübertragungen.
Herstellerunabhängigkeit und Kombinationsmöglichkeiten: Nutzer profitieren von
einer freien Auswahl des jeweils am besten geeigneten Softwareprodukts für Spracherkennung,
Sprachsynthese und Sprecherverifizierung. Zudem lassen sich Produkte verschiedener Hersteller auf
dem Mediaserver parallel betreiben und selektiv nutzen.
Aktuell unterstützt MRCPv2 die folgenden Medientypen:
DTMF-Erkenner: Erkennen von Tonwahleingaben, die Anrufer über die
Telefontastatur beispielsweise ihres Mobilfunkgeräts, VoIP-Softphones oder Festnetztelefons
eintippen.
Spracherkenner: Analyse und Interpretation von Spracheingaben – mit Gestaltung
von natürlichsprachigen Dialogabläufen auf der Basis frei definierbarer Grammatiken.
Sprachsynthese: dynamisches Erzeugen von Sprachansagen aus geschriebenen
Texten.
Sprecherverifizierung: Prüfung der Identität eines Anrufers anhand von
Stimmparametern – durch Vergleich der eingegebenen Sprachinformation mit einer in der Datenbank
hinterlegten Sprachprobe.
Sprachaufzeichnung: Aufzeichnen von Audiodaten auf Speichermedien – das so
genannte "Voice Recording".
Die folgenden Beispiele zeigen die grundsätzliche Funktionsweise von MRCPv2 in Verbindung mit
Spracherkennung, Sprachsynthese und Sprecherverifizierung. Aus Gründen der Übersichtlichkeit sind
dabei die MRCPv2-Protokollabläufe mit ihren ASR/TTS/SV-Requests und -Responses vereinfacht
dargestellt. Bild 2 zeigt die zugehörige Netzwerkkonfiguration mit einem Mediaserver im Rahmen
eines VoIP-Netzes. Als Client zum Mediaserver fungiert ein IVR-Sprachdialogsystem (Interactive
Voice Response) mit einem Unified Messaging System (UMS) als Applikation.
Beispiel Spracherkennung: Ein Anrufer der Applikation "UMS" legitimiert sich durch die Eingabe
seines Passworts, bestehend aus einer sechsstelligen Ziffernfolge. Die Legitimierung erfolgt in
folgenden Schritten (Bild 3):
Das UMS identifiziert den Anrufer anhand seiner Rufnummer per Zugriff auf die
CRM-Datenbank und fordert diesen zur Passworteingabe auf.
Anschließend bereitet das UMS den Mediaserver mit dem ASR-Request "
Spracherkennung – Grammatik Zahleneingabe" auf die Ziffernerkennung vor. Die gesprochenen Ziffern
des Passworts werden per RTP direkt an den Mediaserver übermittelt.
Der Mediaserver analysiert anhand der Grammatik "Zahleneingabe", welche
Ziffernfolge der Anrufer eingegeben hat, und sendet das Ergebnis an das UMS als ASR-Response
zurück.
Das UMS überprüft, ob die Legitimierung des Anrufers erfolgreich war und
fordert diesen abhängig vom Ergebnis zur Fortsetzung seiner Eingaben auf.
Beispiel Sprachsynthese: Im Anschluss an die Legitimierung fordert der Anrufer über
Spracheingabe das UMS auf, seinen E-Mail-Account auf neue Nachrichten zu überprüfen und diese per
Sprachsynthese (TTS) vorzulesen. Dies geschieht in folgenden Schritten (Bild 4):
Die Spracheingabe "Ich möchte meine E-Mail abhören" wird als ASR-Request und
per RTP an den Mediaserver übermittelt. Dieser meldet das Erkennungsergebnis "E-Mail hören" als
ASR-Response zurück.
Das UMS initialisiert einen Login zum E-Mail-Account, um von diesem neue
Nachrichten anzufordern.
Der E-Mailserver übermittelt den Status und sendet – falls vorhanden – die
neuen Nachrichten zurück.
Das UMS fordert per MRCP-TTS-Request den Mediaserver auf, den Text der
Nachricht per Sprachsynthese umzuwandeln und diesen direkt per RTP-Stream an den Anrufer zu
übermitteln. Bei mehreren Nachrichten wiederholt das UMS diesen Schritt bis zur Ausgabe der letzten
Nachricht.
Beispiel Sprecherverifizierung: Es zeigt schematisch die Arbeitsweise von MRCPv2 bei der
Legitimierung des Anrufers anhand seiner Stimmparameter per Sprecherverifizierung (SV). Der Ablauf
setzt sich aus folgenden Schritten zusammen (Bild 5):
Das UMS identifiziert den Anrufer anhand seiner Rufnummer und per Zugriff auf
die CRM-Datenbank. Diese liefert als Antwort die Kundendaten mit den hinterlegten "Voice Prints"
zurück.
Anschließend fordert das UMS den Anrufer zur Spracheingabe auf und bereitet
den Mediaserver per SV-Request "Sprecherverifizierung" darauf vor.
Der Mediaserver vergleicht die per RTP empfangene Sprachinformation mit den
Stimmparametern der Voice Prints und liefert das Ergebnis an das UMS zurück.
Das UMS überprüft anhand des zurückgelieferten Status-Codes, ob die
Legitimierung des Anrufers erfolgreich war und fordert diesen abhängig vom Ergebnis zur Fortsetzung
seines Dialogs auf.
MRCPv2 stellt ein weiteres Glied in der Kette offener webbasierender Standards dar. Das
einheitliche MRCP-API erleichtert die Softwareentwicklung. MRCP-Nutzer erhalten größere
Freiheitsgrade bei der Auswahl passender Produkte für ihre speziellen Aufgabenstellungen.
Allerdings sind – wie bei nahezu allen internationalen Standards – auch beim Einsatz von MRCPv2
einige Punkte zu beachten, um im konkreten Anwendungsfall Probleme zu vermeiden:
Flexibilität bei Innovationen: Internationale Standards sind bezüglich neuer
technischer Trends oft wenig flexibel. Daher nutzen die Hersteller häufig eigene,
produktspezifische Erweiterungen, um Innovationen schnell an den Markt zu bringen. Eine
MRCPv2-Lösung muss also auch in dieser Richtung entwicklungsfähig sein.
Konformität: Internationale Standards wie MRCPv2 lassen den Herstellern
vielfach Spielräume bei der Interpretation und bei der Implementierung. Daher sind in der Praxis
umfangreiche Tests zur Überprüfung der Konformität unverzichtbar.
Performance: Beim Einsatz von MRCPv2-Lösungen ist darauf zu achten, dass sie
für die jeweilige Anwendungssituation schnell genug reagieren und auch unter Last kurze
Antwortzeiten liefern.