RescueSpeech: 用于搜救领域语音识别的德语语料库
该研究找出了语音到语音翻译领域所面临的主要限制是缺乏合适的培训数据。为了解决这个问题,研究人员创建了一个公开可用的语音到语音训练语料库 ——LibriS2S。基于这个语料库,提出了基于 FastSpeech 2 模型的新文本到语音模型,以及如何使模型直接根据源语言的发音来生成语音信号。
Apr, 2022
本文提出了一个欧盟议会 LIBE 委员会的书面语料库,总计 3.6 百万字。在实验过程中,我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别(ASR)流程的基础,并尝试了多个音频模型,语言模型和特定领域术语的添加来适应领域。结果表明,特定领域的音频模型和语言模型显着提高了 ASR 输出的质量,将错误率从 28.22 降至 17.95,并对下游分析任务有用。
Apr, 2023
该研究提供一个德语语音、德语文本和英语翻译的平行语料库,以德语有声读物为基础,包括 110 小时的音频材料,对齐了超过 50k 句平行句子,并且提供了更大的数据集,包括 547 小时的德语语音对齐了德语文本,同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。
Oct, 2019
本文探讨使用不同领域的双语料库进行音频识别训练的数据增强方法,通过使用 Tacotron 合成语音的方式,来提升语音识别的性能。研究表明,使用合成材料进行数据增强可以实现对语音识别性能的提高,但是自然语音和合成语音训练识别器的性能仍有很大的差距。
Sep, 2019
ASR Bundestag 是一个关于德语自动语音识别的数据集,包括 610 小时对齐的音频文本对以进行监督式训练及 1038 小时未标注的音频片段以便进行自监督学习。
Feb, 2023
通过神经网络的发展和训练,基于音频数据的 TTS 应用的数据集越来越多,但不同质量的声音、低采样率、缺乏文本规范化以及音频样本与对应转录句子的对齐不利于深度神经网络的表现,而语言资源的问题更为突出。我们输入 “HUI-Audio-Corpus-German” 数据集,采用处理工具的方式产生高质量音频,降低手动创建的难度。
Jun, 2021
利用 LibriSpeech 数据集,将合成语音与自然语音数据集相结合,使用神经网络训练的端到端自动语音识别模型达到了最新的状态,极大地推动了自动语音识别技术的进步。
Nov, 2018
本研究利用多领域广泛覆盖的香港粤语语料库 (MDCC),采用多数据集学习技术提高 Fairseq S2T Transformer 自动语音识别模型在香港粤语方言中的有效性。
Jan, 2022
本研究旨在提高 ASR 模型在瑞士德语方言上的表现,通过提供对最新发布的瑞士德语语音数据集上现有现有 ASR 模型性能的深入了解。我们提出了一种考虑预测和真实标签之间语义距离的新型损失函数,通过对 Swiss-German 数据集上 OpenAI 的 Whisper 模型进行微调,取得了优于当前最新研究成果的结果。
Apr, 2023