Hypr: ASR 假设修订的全面研究与参考文献
通过使用多模式语音文本嵌入网络,从语音文本数据库中直接查询校正候选项,以消除音频 - 假设不匹配问题,并在将候选项添加到原始候选列表之前使用语音 - 文本嵌入距离对候选项进行评分,该方法在改善检索率的同时,降低了相对的词错误率(WER)。
Jan, 2024
采用外部巨大语言模型 (LLMs) 进行自动语音识别 (ASR) 错误订正的首个开源基准测试涵盖了超过 334,000 个 N-best 假设及相应准确转录数据对,通过三种不同程度标记的假设 - 转录对利用 LLMs 实现了显著的词错误率 (WER) 降低,实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力,从而纠正了 N-best 列表中缺失的标记,提供了一个基于 LLMs 的 ASR 错误订正的全新评估范式。
Sep, 2023
本文提出了一种基于 N-best T5 模型和约束解码过程的语音识别自动纠错方法,通过从预训练语言模型中传递知识和获取 ASR 解码空间中更丰富的信息,该方法在 ASR 后处理中取得了更好的性能表现。
Mar, 2023
使用自动语音识别提供的多个文本替代方案,采用简化的表述方式,通过 transformer 模型 BERT 和 XLM-RoBERTa 对 N-best 替代方案的连接作为输人,提高了 Spoken Language Understanding 系统的性能。
Jun, 2021
本文提出了一种优化框架来减少自动语音识别模型产生的幻听,该框架通过使用先前训练好的评估器计算现实一致性得分,最大限度地优化 ASR 模型,以最大限度地提高 ASR 假设与基础事实一致性的期望得分,实验结果表明,使用提出的框架训练的 ASR 模型产生了与交叉熵训练的 ASR 模型相当的单词错误率,同时生成的 ASR 假设与基准真实转录的一致性得分显著提高,而且通过大型语言模型生成的会话摘要的可靠性也得到了提升。
Feb, 2023
本研究通过 ASR 系统分析儿童的语音来开发新的系统,与之前的研究进行比较,结果表明新开发的 ASR 系统在正确拒绝方面表现出更好的结果;该结果表明,难以对孤立的单词进行分类。
Jun, 2023
本文提出了一种新的方法,利用未标记的语音数据对递归神经网络转录器端对端自动语音识别系统进行无监督的微调和自我训练,其中包括引入多重假设 RNN-T 损失以缓解 ASR 错误对无标记数据的影响,并在 Librispeech,Wall Street Journal(WSJ),Aurora-4 和 CHiME-4 数据集上进行实验,显著提高了系统性能。
Jul, 2022
我们提出了一种新方法,在自动语音识别系统中通过语义格处理利用深度学习模型来提高上下文识别的能力,从而准确地递交准确的转录结果,涵盖广泛的词汇和说话风格。我们在隐藏马尔可夫模型和高斯混合模型以及深度神经网络模型上融合语言和声学建模,通过使用基于 Transformer 的模型对单词格进行重新评分,实现了显著的性能提升和词错误率的明显降低,在 LibriSpeech 数据集上进行了实证分析,证明了我们提出的框架的有效性。
Oct, 2023
这篇论文研究了使用无监督学习的方法,包括语音分割,语音信号到文本的映射和半监督模型来实现自动语音识别,以识别从语音数据中可以学到的极限并理解语音识别的最小要求,目的是为了在开发低资源语言的语音识别系统时优化资源和努力。
Jun, 2021
该研究提出了一种新的方法来通过后期编辑来纠正语音识别错误。通过使用一个神经序列标注器来逐字学习如何纠正 ASR(自动语音识别)假设,以及一个应用标注器返回的纠正的纠错模块,该解决方案适用于任何 ASR 系统,提供对正在纠正的错误的高精确度控制,尤其在生产环境中更为关键。研究结果显示,所提出的错误纠正模型的性能与之前的方法相当,同时需要更少的训练资源,适合于工业应用,其中推理延迟和训练时间是限制其他技术应用的关键因素。
Jun, 2024