ASR Bundestag:德国大规模政治辩论数据集
本文介绍了芬兰议会 ASR 语料库及相关的 Kaldi-based 数据准备管道,HMM,HMM-DNN 和 AED ASR 配方,以及通过测试集和其他数据集在 ASR 上设置了基准,最后比较了不同议会元数据的 ASR 准确性变化。
Mar, 2022
本文提出了一个欧盟议会 LIBE 委员会的书面语料库,总计 3.6 百万字。在实验过程中,我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别(ASR)流程的基础,并尝试了多个音频模型,语言模型和特定领域术语的添加来适应领域。结果表明,特定领域的音频模型和语言模型显着提高了 ASR 输出的质量,将错误率从 28.22 降至 17.95,并对下游分析任务有用。
Apr, 2023
该研究提供一个德语语音、德语文本和英语翻译的平行语料库,以德语有声读物为基础,包括 110 小时的音频材料,对齐了超过 50k 句平行句子,并且提供了更大的数据集,包括 547 小时的德语语音对齐了德语文本,同时为德语语音识别和德语到英语的端到端翻译提供了大量的资源。
Oct, 2019
本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据,使用 CTC 和 attention Transformer 模型对德语语音识别进行训练,实现了 12.8%的识别错误率,超过了传统混合 DNN / HMM ASR 的 14.4%的基础水平。
Jul, 2020
本研究介绍了一种用于从有声读物生成 ASR 训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合 ASR 训练的长度,简化了资源稀缺语言中 ASR 系统的数据准备工作,并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言,不仅解决了数据匮乏问题,还提高了低资源语言的 ASR 模型性能。
Jun, 2024
本文研究使用基于知识的发音词典来提高德语对话语音识别的性能。实验结果表明,相对于增加语言模型数据的大小,使用发音词典可以在低资源语料情况下取得高性能。
Jan, 2023
通过神经网络的发展和训练,基于音频数据的 TTS 应用的数据集越来越多,但不同质量的声音、低采样率、缺乏文本规范化以及音频样本与对应转录句子的对齐不利于深度神经网络的表现,而语言资源的问题更为突出。我们输入 “HUI-Audio-Corpus-German” 数据集,采用处理工具的方式产生高质量音频,降低手动创建的难度。
Jun, 2021
研究使用神经网络的自动语音识别系统,如何评估其预测的转录与语音输入的误差类别,评估结果指出交叉体系结构的预测错误,并查找错误来源,提出定量改善数据集和提高 ASR 系统鲁棒性的解决方案。
Apr, 2022
本研究详细阐述了开发出的 57 个模拟初级保健咨询数据集,包括音频记录、手动语音层次转录和相关的咨询备注,旨在成为医疗对话 ASR 基准以及转录生成咨询注意事项的数据集。
Apr, 2022