RescueSpeech: 用于搜救领域语音识别的德语语料库

Jun, 2023

RescueSpeech: 用于搜救领域语音识别的德语语料库

RescueSpeech: A German Corpus for Speech Recognition in Search and Rescue Domain

Sangeet Sagar, Mirco Ravanelli, Bernd Kiefer, Ivana Kruijff Korbayova, Josef van Genabith

TL;DR在搜索和救援环境中，语音识别面临嘈杂和残音扰动的问题；作者创建了名为 RescueSpeech 的语音数据集并公开发布，但目前使用最先进的方法仍无法达到令人满意的性能水平。

Abstract

Despite recent advancements in speech recognition, there are still difficulties in accurately transcribing conversational and emotional speech in noisy and reverberant acoustic environments. This poses a particular challenge in the →

speech recognition search and rescue noisy environments german speech dataset pre-trained models

发现论文，激发创造

LibriS2S: 一份德英语音到语音翻译语料库

该研究找出了语音到语音翻译领域所面临的主要限制是缺乏合适的培训数据。为了解决这个问题，研究人员创建了一个公开可用的语音到语音训练语料库 ——LibriS2S。基于这个语料库，提出了基于 FastSpeech 2 模型的新文本到语音模型，以及如何使模型直接根据源语言的发音来生成语音信号。

Apr, 2022

通过欧盟辩论自动语音识别进行政治语料库创建

本文提出了一个欧盟议会 LIBE 委员会的书面语料库，总计 3.6 百万字。在实验过程中，我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别（ASR）流程的基础，并尝试了多个音频模型，语言模型和特定领域术语的添加来适应领域。结果表明，特定领域的音频模型和语言模型显着提高了 ASR 输出的质量，将错误率从 28.22 降至 17.95，并对下游分析任务有用。

Apr, 2023

LibriVoxDeEn: 一个用于德语到英语语音翻译和德语语音识别的语料库

该研究提供一个德语语音、德语文本和英语翻译的平行语料库，以德语有声读物为基础，包括 110 小时的音频材料，对齐了超过 50k 句平行句子，并且提供了更大的数据集，包括 547 小时的德语语音对齐了德语文本，同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。

Oct, 2019

增强合成语音的语音识别

本文探讨使用不同领域的双语料库进行音频识别训练的数据增强方法，通过使用 Tacotron 合成语音的方式，来提升语音识别的性能。研究表明，使用合成材料进行数据增强可以实现对语音识别性能的提高，但是自然语音和合成语音训练识别器的性能仍有很大的差距。

Sep, 2019

ASR Bundestag：德国大规模政治辩论数据集

ASR Bundestag 是一个关于德语自动语音识别的数据集，包括 610 小时对齐的音频文本对以进行监督式训练及 1038 小时未标注的音频片段以便进行自监督学习。

Feb, 2023

HUI-Audio-Corpus-German：高品质 TTS 数据集

通过神经网络的发展和训练，基于音频数据的 TTS 应用的数据集越来越多，但不同质量的声音、低采样率、缺乏文本规范化以及音频样本与对应转录句子的对齐不利于深度神经网络的表现，而语言资源的问题更为突出。我们输入 “HUI-Audio-Corpus-German” 数据集，采用处理工具的方式产生高质量音频，降低手动创建的难度。

Jun, 2021

远场语音识别实际多麦克风数据模拟

本文重点讨论了模拟语音数据集的重要性以及如何利用数据模拟技术来生成与现实环境密切相关的语音数据集，并通过多麦克风的实验验证了其在各种情况下的可行性。

Nov, 2017

使用合成语音增强训练神经语音识别系统

利用 LibriSpeech 数据集，将合成语音与自然语音数据集相结合，使用神经网络训练的端到端自动语音识别模型达到了最新的状态，极大地推动了自动语音识别技术的进步。

Nov, 2018

粤语自动语音识别数据集：调查与新数据集

本研究利用多领域广泛覆盖的香港粤语语料库 (MDCC)，采用多数据集学习技术提高 Fairseq S2T Transformer 自动语音识别模型在香港粤语方言中的有效性。

Jan, 2022

Spaiche：扩展最先进的 ASR 模型以支持瑞士德语方言

本研究旨在提高 ASR 模型在瑞士德语方言上的表现，通过提供对最新发布的瑞士德语语音数据集上现有现有 ASR 模型性能的深入了解。我们提出了一种考虑预测和真实标签之间语义距离的新型损失函数，通过对 Swiss-German 数据集上 OpenAI 的 Whisper 模型进行微调，取得了优于当前最新研究成果的结果。

Apr, 2023