ITG – Informationstechnische Gesellschaft im VDE (VDE ITG) (Ed.)

ITG-Fb. 298: Speech Communication

14th ITG Conference, 29.09. - 01.10.2021, Online-Event

ITG-Fachberichte

2021, 223 pages, 140 x 124 mm, Slimlinebox, CD-Rom
ISBN 978-3-8007-5627-8, e-book: ISBN 978-3-8007-5628-5
Personal VDE Members are entitled to a 10% discount on this title

Content Foreword

The 14th ITG conference on Speech Communication solicits contributions on theory, algorithms, and applications in the following areas of speech, audio, and spoken language processing:

• Speech Enhancement and Separation
• Source Localization and Tracking
• Automatic Speech and Speaker Recognition
• Spoken Dialogue, Diarization, andSpoken Document Retrieval Systems
• Speech Synthesis
• Speech Modeling, Coding, andTransmission
• Speech Production and Perception
• Speech and Audio Quality Assessment
• Speech Intelligibility Assessment
• Paralinguistics, Speech Diagnostics,and Speech-related Biosignals
• Speech in Automotive, Mobile, andMultimodal Applications
• Acoustic Interfaces, Assistive Devices,and Hearing Aids
• Machine Learning for Speech Processing
• Hardware and Software Tools
• Emerging Topics and Applications
Die VDE ITG ist als interdisziplinär arbeitende, wissenschaftliche Fachgesellschaft in das fachübergreifende Netzwerk des VDE eingebunden. Sie agiert als Schnittstelle für Experten der Informationstechnik (ITK) in Wirtschaft, Verwaltung, Lehre und Forschung. Ihre Mitglieder bündeln in enger internationaler Anbindung die deutsche Kompetenz im Bereich der ITK. Die VDE ITG fördert Forschung und Anwendung dieser Schlüsseltechnologie sowie deren effizienten Einsatz in den Bereichen Daten- und Kommunikationstechnik und -systeme, Umweltschutz, Medizin und Verkehr.
Mit ihrem weitgespannten internationalen Netzwerk versteht sich die VDE ITG als Plattform für Innovationen und Wissenstransfer für die erfolgreiche Kooperation von Industriepartnern und Forschungseinrichtungen. Hierzu führt die ITG eine ganze Reihe von Fachtagungen, Diskussionssitzungen und Workshops durch. Mit ihren Studien und Empfehlungen bringt die VDE ITG ihre Expertise in Politik und Gesellschaft ein und nimmt an Förderprogrammen teil.

1

Two-Dimensional Embeddings for Low-Resource Keyword Spotting Based on Dynamic Time Warping

Authors:
Wilkinghoff, Kevin; Cornaggia-Urrigshardt, Alessia; Goekgoez, Fahrettin

2

Multi-Head Fusion Attention for Transformer-Based End-to-End Automatic Speech Recognition

Authors:
Lohrenz, Timo; Schwarz, Patrick; Li, Zhengyang; Fingscheidt, Tim

3

Federated Learning in ASR: Not as Easy as You Think

Authors:
Yu, Wentao; Freiwald, Jan; Tewes, Soeren; Huennemeyer, Fabien; Kolossa, Dorothea

4

A Comparative Pronunciation Mapping Approach using G2P Conversion for Anglicisms in German Speech Recognition

Authors:
Pritzen, Julia; Gref, Michael; Schmidt, Christoph; Zuehlke, Dietlind

5

Bilingual I-Vector Extractor for DNN Hybrid Acoustic Model Training in German Speech Recognition Systems

Authors:
Wang, Yao; Gref, Michael; Walter, Oliver; Schmidt, Christoph

6

7

A Lightweight Neural TTS System for High-quality German Speech Synthesis

Authors:
Govalkar, Prachi; Mustafa, Ahmed; Pia, Nicola; Bauer, Judith; Yurt, Metehan; Oezer, Yigitcan; Dittmar, Christian

8

Automatic Speech Recognition for Dementia Screening using ILSE-Interviews

Authors:
Ablimit, Ayimnisagul; Schultz, Tanja

9

On Source-Microphone Distance Estimation Using Convolutional Recurrent Neural Networks

Authors:
Gburrek, Tobias; Schmalenstroeer, Joerg; Haeb-Umbach, Reinhold

10

On the Use of Additional Microphones in Binaural Cue Adaptation

Authors:
Nagel, Sebastian; Jax, Peter

11

12

13

14

15

Plosive Enhancement Using Phase Linearization and Smoothing

Authors:
Peer, Tal; Ziegert, Klaus-Johan; Gerkmann, Timo

16

Speaker-conditioned Target Speaker Extraction Based on Customized LSTM Cells

Authors:
Sinha, Ragini; Tammen, Marvin; Rollwage, Christian; Doclo, Simon

17

Mixed Analog-digital Speech Communication for Underwater Applications

Authors:
Wisch, Tim Owe; Schmidt, Gerhard

18

Speeding Up Permutation Invariant Training for Source Separation

Authors:
von Neumann, Thilo; Boeddeker, Christoph; Kinoshita, Keisuke; Delcroix, Marc; Haeb-Umbach, Reinhold

19

20

Joint Reduction of Ego-noise and Environmental Noise with a Partially-adaptive Dictionary

Authors:
Fang, Huajian; Carbajal, Guillaume; Wermter, Stefan; Gerkmann, Timo

21

Low-Complexity Multichannel Wiener Filtering Using Ambisonic Warping

Authors:
Sathe, Ashay; Herzog, Adrian; Habets, Emanuel A. P.

22

A Comparison and Combination of Unsupervised Blind Source Separation Techniques

Authors:
Boeddeker, Christoph; Rautenberg, Frederik; Haeb-Umbach, Reinhold

23

Robust and High Gain Acoustic Feedback Compensation in the Frequency DomainWith a Simple Energy-decay Operator

Authors:
Linhard, Klaus; Bulling, Philipp; Gimm, Marco; Schmidt, Gerhard

24

An Integrated Deep Clustering-Based System for Speaker Count Agnostic Speech Separation

Authors:
Lemercier, Jean-Marie; Bartel, Leroy; Ditter, David; Gerkmann, Timo

25

26

Reinforcement Learning-based Microphone Selection inWireless Acoustic Sensor Networks Considering Network and Acoustic Utilities

Authors:
Afifi, Haitham; Guenther, Michael; Brendel, Andreas; Karl, Holger; Kellermann, Walter

27

28

An Objective Evaluation Framework for Pathological Speech Synthesis

Authors:
Halpern, Bence Mark; Fritsch, Julian; Hermann, Enno; van Son, Rob; Scharenborg, Odette; Magimai-Doss, Mathew

29

Informed Source Extraction With Application to Acoustic Echo Reduction

Authors:
Elminshawi, Mohamed; Mack, Wolfgang; Habets, Emanuel A. P.

30

31

The Effect of Surprisal on Articulatory Gestures in Polish Consonant-to-Vowel Transitions: A Pilot EMA Study

Authors:
Kudera, Jacek; Tavi, Lauri; Moebius, Bernd; Avgustinova, Tania; Klakow, Dietrich

32

A Data Generation Framework for Acoustic Drone Detection Algorithms

Authors:
Jarocky, Nikita; Urrigshardt, Sebastian; Kurth, Frank

33

34

Impact of a Speaker Head Rotation on the Far-end Listening Situation

Authors:
Hübschen, Tobias; Al-Mafrachi, Rasool; Schmidt, Gerhard

35

Towards Non-Intrusive Prediction of Speech Recognition Thresholds in Binaural Conditions

Authors:
Huelsmeier, David; Hauth, Christopher F.; Roettges, Saskia; Kranzusch, Paul; Rossbach, Jana; Schaedler, Marc Rene; Meyer, Bernd T.; Warzybok, Anna; Brand, Thomas

36

37

Acoustic Ambiance Simulation using Orthogonal Loudspeaker Signals

Authors:
Namenas, Anton; Schmidt, Gerhard

38