Verbesserung der Spracherkennung bei Freisprechen durch die Kombination einer robusten Merkmalsextraktion und einer Adaption der Referenzmuster

Conference: Sprachkommunikation 2008 - 8. ITG-Fachtagung
10/08/2008 - 10/10/2008 at Aachen, Deutschland

Proceedings: Sprachkommunikation 2008

Pages: 4Language: germanTyp: PDF

Personal VDE Members are entitled to a 10% discount on this title

Authors:
Hirsch, Hans-Günter; Pogscheba, Patrick (Fachbereich Elektrotechnik und Informatik, Hochschule Niederrhein, 47805 Krefeld)

Abstract:
Es wird ein Verfahren zur robusten Spracherkennung vorgestellt, das aus der Kombination einer robusten Merkmalsextraktion und einer Adaption der zur Erkennung verwendeten Referenzmuster besteht. Die Extraktion der robusten Merkmale wird mit einem von ETSI standardisierten Verfahren vorgenommen. Damit lassen sich beachtliche Verbesserungen bei der Erkennung von in gestörter Umgebung aufgenommenen Sprachsignalen erzielen. Die Leistungsfähigkeit eines auf diesem Verfahren beruhenden Spracherkennungssystems verschlechtert sich allerdings bei einer Spracheingabe im Freisprechmodus in einer räumlichen Umgebung deutlich. Dabei beeinflusst neben den eventuell vorhandenen Störgeräuschen der Nachhall des Raumes das Sprachsignal. Es wird gezeigt, dass für diese Kombination von Störeinflüssen die Erkennungsraten durch den zusätzlichen Einsatz einer Adaption der Referenzmuster verbessert werden können. Dabei beruht die Adaption auf einer Schätzung der Nachhallzeit des Raumes. Eine derartige Adaption kann bei allen Spracherkennungssystemen eingesetzt werden, die auf einer Extraktion robuster spektraler Merkmale beruhen, um ihre Einsatzfähigkeit auf eine Spracheingabe im Freisprechmodus zu erweitern.