Blinde Separation von Sprachsignalen basierend auf dem Kriterium maximaler Disjunktheit

Conference: Sprachkommunikation 2008 - 8. ITG-Fachtagung
10/08/2008 - 10/10/2008 at Aachen, Deutschland

Proceedings: Sprachkommunikation 2008

Pages: 4Language: germanTyp: PDF

Personal VDE Members are entitled to a 10% discount on this title

Authors:
Anemüller, Jörn (Sektion Medizinische Physik, Institut für Physik, Universität Oldenburg)

Abstract:
Die übliche Behandlung blinder Quellentrennung geschieht auf Basis der Optimierung von Kostenfunktionen, die statistische Maße wie Transinformation oder Korrelationfunktionen enthalten. In diesem Beitrag wird ein alternatives Modell zur Quellentrennung vorgestellt, welches auf dem Kriterium der maximalen Disjunktheit bzw. des minimalen Überlapps basiert. Unter Disjunktheit (engl. “disjointness”) zweier Signale wird dabei im idealen Grenzfall verstanden, dass zu jedem Zeitpunkt nur eines der Quellsignale “aktiv” ist, sich die Signale also nicht überlappen. Daraus resultiert direkt eine negative Korrelation der Signaleinhüllenden, im Gegensatz zur üblichen Annahme statistischer Unabhängigkeit. Ein Beispiel für nicht statistisch unabhängige Signale, die jedoch näherungsweise diskunkt sind, findet sich im Bereich der Sprachverarbeitung bei Sprachdialogen. In dieser Situation spricht (im idealen Fall) nur jeweils eine Person, während alle anderen Sprecher schweigen. Wir leiten aus der Annahme disjunkter Signalquellen einen iterativen Algorithmus ab, der dem bekannten Infomax Algorithmus verblüffend ähnelt. Die Annahme der Disjunktheit ist für reale Signale nur näherungsweise erfüllt. Es wird gezeigt, dass auch in diesem Fall durch Maximierung der Disjunktheit die Trennung der Quellensignale erreicht wird.