Die Corona-Pandemie hat dazu geführt, dass Kundenkontakt vermehrt über Telefon oder Videokonferenzen stattfindet. Spracherkennung und dialogrientierte KI können Unternehmen dabei unterstützen, auf die neuen Anforderungen zu reagieren. Drei potenzielle Anwendungsszenarien der Technologie.
Bei Sprachtechnologie denkt man vielleicht zunächst an smarte Assistenten wie Siri und Alexa oder an Spracherkennung wie etwa Diktiersoftware. Doch darüber hinaus bietet die Technologie weitere interessante Einsatzszenarien im Business-Kontext, von der Verschriftlichung von Video- und Telefonkonferenzen über Contact Center bis hin zur Betrugsprävention. Gemeinsam ist diesen Einsatzgebieten, dass sie Systeme erfordern, die mit mehreren Sprechern zurechtkommen.
Spracherkennung ist nicht gleich Spracherkennung
Bei der automatischen Umsetzung von gesprochener Sprache in geschriebenen Text gibt es zwei unterschiedliche Konzepte, je nach Einsatzgebiet. Bei Diktiersoftware trainiert man das System auf einen Sprecher und seine ganz spezifischen Eigenheiten. Zusammen mit der hohen Audioqualität, die bei Aufnahmen mit einem Diktiergerät erzielt wird, erlaubt das höchste Genauigkeit. Für die eingangs beschriebenen Anwendungsfälle kommt jedoch ein anderes Konzept zum Einsatz. Hier ist nicht die Anpassung an einen einzelnen Sprecher ausschlaggebend für das Training, sondern eine möglichst große Varianz in der Erkennung. Das heißt, ein solches System wird mit ganz verschiedenen Sprachbeispielen trainiert, um einen möglichst breiten Querschnitt abzubilden. So soll sichergestellt werden, dass ein System das Gesagte unabhängig von Geschlecht, Alter und eventuellen Dialekteinflüssen zuverlässig erkennt. Die dafür genutzten Samples stammen beispielsweise aus aufgezeichneten Telefongesprächen und stellen damit ein Training unter realen Bedingungen sicher. Moderne Transcription Services sind darüber hinaus so robust ausgelegt, dass sie auch mit verminderter Übertragungsqualität, etwa durch kleinere Störungen des Mobilfunkempfangs, zurechtkommen.
In vier Schritten zum Text
Soll ein Gespräch mit mehreren Teilnehmern verschriftlicht werden, handelt es sich um einen mehrstufigen Prozess. Zunächst muss ein Programm feststellen, ob überhaupt gesprochen wird. Sobald Sprache erkannt wurde, muss diese in einem zweiten Schritt einem Sprecher zugeordnet werden. Das erfolgt anhand bestimmter individueller Charakteristika der Stimme. Danach erst erfolgt die eigentliche Transkription, die Umsetzung in Text, bei der das System die wahrscheinlichsten Worte erkennt. Darüber hinaus gibt es Systeme, die besonders prägnante Wortfolgen für eine bestimmte Branche erkennen können und die entsprechenden Fachbegriffe kennen. Ist ein Text erstellt, kann in einem vierten Schritt eine Nachbearbeitung erfolgen. Bei manchen Systemen werden etwa Geldbeträge standardmäßig in Ziffern umgewandelt, Datumsangaben in die landesübliche Schreibweise gebracht oder aber bestimmte Begriffe hervorgehoben. Diese Intelligenz kann man etwa nutzen, um unerwünschte Ausdrücke (etwa Schimpfworte) aus einem Transkript zu entfernen oder vordefinierte Keywords hervorzuheben.