长篇语音识别的更新语料库和基准
本文介绍 TED-LIUM 发布的第三个语音识别数据集,主要是为了增加训练声学模型的可用数据,比 TED-LIUM 2 多出一倍以上的语料。研究表明,相比 2012 年和 2014 年发布的数据集,通过提高训练数据量,对于端到端的 ASR 系统更为有效。同时,本文还提出了根据说话人自适应进行实验的两组 TED-LIUM release 3 corpus 数据分配计划,并且将其免费提供给研究社区。
May, 2018
使用端到端的自动语音识别模型代替传统的语音活动检测器 (VAD),在处理长的音频片段时,不仅能够使用更好的声学特征进行分割决策,还可以使用文本解码得到的语义特征,从而有更好的性能表现。在 30 分钟内的真实世界音频实验中,相比于使用 VAD,我们展示了在最先进的 Conformer RNN-T 模型上 8.5% 的相对 WER 改进和 250 ms 的额外分割延迟减少。
Apr, 2022
本文介绍了芬兰议会 ASR 语料库及相关的 Kaldi-based 数据准备管道,HMM,HMM-DNN 和 AED ASR 配方,以及通过测试集和其他数据集在 ASR 上设置了基准,最后比较了不同议会元数据的 ASR 准确性变化。
Mar, 2022
ASR 模型经常在转录长时间音频时出现长篇删除问题,本研究通过引入新的技术,在音频中同时建模不同组的演讲者和标准转录标记,减轻了长篇删除问题。
Dec, 2023
本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据,使用 CTC 和 attention Transformer 模型对德语语音识别进行训练,实现了 12.8%的识别错误率,超过了传统混合 DNN / HMM ASR 的 14.4%的基础水平。
Jul, 2020
本论文介绍了一个新的、多领域的英语语音识别语料库 ——GigaSpeech,它包含了来自有声读物、播客和 YouTube 等各种领域的高质量标记音频,提供了五个不同大小的训练子集,并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段,并过滤出低质量的转录片段。最终在 Athena、ESPnet、Kaldi 和 Pika 等流行的语音识别工具包上,提供了基准系统。
Jun, 2021
本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒,并且使用限制注意力单调性和分段解码算法等两种改进方法,将注意力模型的性能极大提升,达到了和 RNN-T 模型相当的水平。
Nov, 2019
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
本文提出了一个 39 小时的包含来自不同金融领域的密集实体语音的 Earnings-21 语料库,用于 ASR 系统的基准测试,并针对命名实体识别进行特殊关注。通过我们最近发布的 fstalign 工具,提供了每个模型在不同划分下的识别能力的坦率分析。分析发现,某些 NER 类别的 ASR 准确率很低,存在着显著的文本理解和使用障碍。Earnings-21 能够评估学术和商业 ASR 系统,使得实体塑造和 WER 在真实世界音频上的进一步研究成为可能。
Apr, 2021