ITG – Informationstechnische Gesellschaft im VDE (VDE ITG) (Hrsg.)

ITG-Fb. 298: Speech Communication

14th ITG Conference, 29.09. - 01.10.2021, Online-Event

ITG-Fachberichte

2021, 223 Seiten, 140 x 124 mm, Slimlinebox, CD-Rom
ISBN 978-3-8007-5627-8, E-Book: ISBN 978-3-8007-5628-5
Persönliche VDE-Mitglieder erhalten auf diesen Titel 10% Rabatt

Inhaltsverzeichnis Vorwort

The 14th ITG conference on Speech Communication solicits contributions on theory, algorithms, and applications in the following areas of speech, audio, and spoken language processing:

• Speech Enhancement and Separation
• Source Localization and Tracking
• Automatic Speech and Speaker Recognition
• Spoken Dialogue, Diarization, andSpoken Document Retrieval Systems
• Speech Synthesis
• Speech Modeling, Coding, andTransmission
• Speech Production and Perception
• Speech and Audio Quality Assessment
• Speech Intelligibility Assessment
• Paralinguistics, Speech Diagnostics,and Speech-related Biosignals
• Speech in Automotive, Mobile, andMultimodal Applications
• Acoustic Interfaces, Assistive Devices,and Hearing Aids
• Machine Learning for Speech Processing
• Hardware and Software Tools
• Emerging Topics and Applications
Die VDE ITG ist als interdisziplinär arbeitende, wissenschaftliche Fachgesellschaft in das fachübergreifende Netzwerk des VDE eingebunden. Sie agiert als Schnittstelle für Experten der Informationstechnik (ITK) in Wirtschaft, Verwaltung, Lehre und Forschung. Ihre Mitglieder bündeln in enger internationaler Anbindung die deutsche Kompetenz im Bereich der ITK. Die VDE ITG fördert Forschung und Anwendung dieser Schlüsseltechnologie sowie deren effizienten Einsatz in den Bereichen Daten- und Kommunikationstechnik und -systeme, Umweltschutz, Medizin und Verkehr.
Mit ihrem weitgespannten internationalen Netzwerk versteht sich die VDE ITG als Plattform für Innovationen und Wissenstransfer für die erfolgreiche Kooperation von Industriepartnern und Forschungseinrichtungen. Hierzu führt die ITG eine ganze Reihe von Fachtagungen, Diskussionssitzungen und Workshops durch. Mit ihren Studien und Empfehlungen bringt die VDE ITG ihre Expertise in Politik und Gesellschaft ein und nimmt an Förderprogrammen teil.

1

Two-Dimensional Embeddings for Low-Resource Keyword Spotting Based on Dynamic Time Warping

Autoren: Wilkinghoff, Kevin; Cornaggia-Urrigshardt, Alessia; Goekgoez, Fahrettin

2

Multi-Head Fusion Attention for Transformer-Based End-to-End Automatic Speech Recognition

Autoren: Lohrenz, Timo; Schwarz, Patrick; Li, Zhengyang; Fingscheidt, Tim

3

Federated Learning in ASR: Not as Easy as You Think

Autoren: Yu, Wentao; Freiwald, Jan; Tewes, Soeren; Huennemeyer, Fabien; Kolossa, Dorothea

4

A Comparative Pronunciation Mapping Approach using G2P Conversion for Anglicisms in German Speech Recognition

Autoren: Pritzen, Julia; Gref, Michael; Schmidt, Christoph; Zuehlke, Dietlind

5

Bilingual I-Vector Extractor for DNN Hybrid Acoustic Model Training in German Speech Recognition Systems

Autoren: Wang, Yao; Gref, Michael; Walter, Oliver; Schmidt, Christoph

6

7

A Lightweight Neural TTS System for High-quality German Speech Synthesis

Autoren: Govalkar, Prachi; Mustafa, Ahmed; Pia, Nicola; Bauer, Judith; Yurt, Metehan; Oezer, Yigitcan; Dittmar, Christian

8

Automatic Speech Recognition for Dementia Screening using ILSE-Interviews

Autoren: Ablimit, Ayimnisagul; Schultz, Tanja

9

On Source-Microphone Distance Estimation Using Convolutional Recurrent Neural Networks

Autoren: Gburrek, Tobias; Schmalenstroeer, Joerg; Haeb-Umbach, Reinhold

10

On the Use of Additional Microphones in Binaural Cue Adaptation

Autoren: Nagel, Sebastian; Jax, Peter

11

12

13

14

15

Plosive Enhancement Using Phase Linearization and Smoothing

Autoren: Peer, Tal; Ziegert, Klaus-Johan; Gerkmann, Timo

16

Speaker-conditioned Target Speaker Extraction Based on Customized LSTM Cells

Autoren: Sinha, Ragini; Tammen, Marvin; Rollwage, Christian; Doclo, Simon

17

Mixed Analog-digital Speech Communication for Underwater Applications

Autoren: Wisch, Tim Owe; Schmidt, Gerhard

18

Speeding Up Permutation Invariant Training for Source Separation

Autoren: von Neumann, Thilo; Boeddeker, Christoph; Kinoshita, Keisuke; Delcroix, Marc; Haeb-Umbach, Reinhold

19

20

Joint Reduction of Ego-noise and Environmental Noise with a Partially-adaptive Dictionary

Autoren: Fang, Huajian; Carbajal, Guillaume; Wermter, Stefan; Gerkmann, Timo

21

Low-Complexity Multichannel Wiener Filtering Using Ambisonic Warping

Autoren: Sathe, Ashay; Herzog, Adrian; Habets, Emanuel A. P.

22

A Comparison and Combination of Unsupervised Blind Source Separation Techniques

Autoren: Boeddeker, Christoph; Rautenberg, Frederik; Haeb-Umbach, Reinhold

23

Robust and High Gain Acoustic Feedback Compensation in the Frequency DomainWith a Simple Energy-decay Operator

Autoren: Linhard, Klaus; Bulling, Philipp; Gimm, Marco; Schmidt, Gerhard

24

An Integrated Deep Clustering-Based System for Speaker Count Agnostic Speech Separation

Autoren: Lemercier, Jean-Marie; Bartel, Leroy; Ditter, David; Gerkmann, Timo

25

26

Reinforcement Learning-based Microphone Selection inWireless Acoustic Sensor Networks Considering Network and Acoustic Utilities

Autoren: Afifi, Haitham; Guenther, Michael; Brendel, Andreas; Karl, Holger; Kellermann, Walter

27

28

An Objective Evaluation Framework for Pathological Speech Synthesis

Autoren: Halpern, Bence Mark; Fritsch, Julian; Hermann, Enno; van Son, Rob; Scharenborg, Odette; Magimai-Doss, Mathew

29

Informed Source Extraction With Application to Acoustic Echo Reduction

Autoren: Elminshawi, Mohamed; Mack, Wolfgang; Habets, Emanuel A. P.

30

31

The Effect of Surprisal on Articulatory Gestures in Polish Consonant-to-Vowel Transitions: A Pilot EMA Study

Autoren: Kudera, Jacek; Tavi, Lauri; Moebius, Bernd; Avgustinova, Tania; Klakow, Dietrich

32

A Data Generation Framework for Acoustic Drone Detection Algorithms

Autoren: Jarocky, Nikita; Urrigshardt, Sebastian; Kurth, Frank

33

34

Impact of a Speaker Head Rotation on the Far-end Listening Situation

Autoren: Hübschen, Tobias; Al-Mafrachi, Rasool; Schmidt, Gerhard

35

Towards Non-Intrusive Prediction of Speech Recognition Thresholds in Binaural Conditions

Autoren: Huelsmeier, David; Hauth, Christopher F.; Roettges, Saskia; Kranzusch, Paul; Rossbach, Jana; Schaedler, Marc Rene; Meyer, Bernd T.; Warzybok, Anna; Brand, Thomas

36

37

Acoustic Ambiance Simulation using Orthogonal Loudspeaker Signals

Autoren: Namenas, Anton; Schmidt, Gerhard

38