长篇语音识别的更新语料库和基准
本文介绍TED-LIUM发布的第三个语音识别数据集,主要是为了增加训练声学模型的可用数据,比TED-LIUM 2多出一倍以上的语料。研究表明,相比2012年和2014年发布的数据集,通过提高训练数据量,对于端到端的ASR系统更为有效。同时,本文还提出了根据说话人自适应进行实验的两组TED-LIUM release 3 corpus数据分配计划,并且将其免费提供给研究社区。
May, 2018
本论文介绍了一个新的、多领域的英语语音识别语料库——GigaSpeech,它包含了来自有声读物、播客和YouTube等各种领域的高质量标记音频,提供了五个不同大小的训练子集,并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段,并过滤出低质量的转录片段。最终在Athena、ESPnet、Kaldi和Pika等流行的语音识别工具包上,提供了基准系统。
Jun, 2021
本文研究发现,使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别(ASR)的 word error rate,其中 lexicon 对于改善 ASR 性能没有多大作用,而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。
Feb, 2023
本文旨在探讨将大型语言模型(LLMs)集成到自动语音识别(ASR)系统中以提高转录准确性的潜力,并通过实验表明在当前阶段,使用LLMs的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。
Jul, 2023
通过发布ASR假设修正(HypR)数据集和对几种经典的代表性方法进行实现和比较,展示了修正语音识别结果的最新研究进展,希望这些公开可用的HypR数据集能够成为进一步研究的参考基准,并推动相关研究领域的发展。
Sep, 2023
该论文通过比较研究了三种常用的连接结构,包括全连接层、多头交叉注意力和Q-Former,并对Whisper系列的语音编码器和Vicuna系列的大语言模型进行了实验,结果表明基于Q-Former的大语言模型相比其他连接结构在LibriSpeech、Common Voice和GigaSpeech数据集上均取得了一致且显著的词错误率降低。此外,提出了一种新颖的片段级Q-Former,使大语言模型能够识别超过编码器限制的持续时间的语音片段,在90秒长的语音数据上相比其他连接结构取得了17%的词错误率降低。
Sep, 2023
ASR模型经常在转录长时间音频时出现长篇删除问题,本研究通过引入新的技术,在音频中同时建模不同组的演讲者和标准转录标记,减轻了长篇删除问题。
Dec, 2023
本文研究了使用公共英语ASR语料库训练仅解码器模型(DOTA)相比于基于编码器-解码器的开源复制模型(OWSM)和Whisper的大型语言模型(Whisper large-v3),在几乎所有英语ASR基准测试集上取得更好的性能,并在15个测试集中的7个上超过了Whisper。我们在宽松许可下发布了我们的代码库和模型检查点。
Jan, 2024
本研究解决了现有自动语音识别(ASR)基准未能反映现实对话环境复杂性的问题,提出了一个来自TalkBank的多语言对话数据集。研究发现,主流ASR模型在此对话环境下性能显著下降,并揭示了语音不流畅性与词错误率之间的相关性,突显了建立更真实对话基准的必要性。
Sep, 2024
本文研究了变压器在预训练语言模型(PLMs)中作为自动语音识别(ASR)编码器的有效性,填补了这一领域的研究空白。研究表明,变压器在从文本数据中提取特征的能力可以有效转化为处理语音数据,从而显著提升ASR的性能。我们的实验结果显示,在多种ASR任务中,使用预训练语言模型的变压器能显著降低字符错误率(CER)和单词错误率(WER),尤其在需要深刻语义理解的场景中效果更为显著。
Sep, 2024