基于多个输入假设和有约束的解码空间的强健 ASR 错误校正的 N-best T5 模型
使用自动语音识别提供的多个文本替代方案,采用简化的表述方式,通过 transformer 模型 BERT 和 XLM-RoBERTa 对 N-best 替代方案的连接作为输人,提高了 Spoken Language Understanding 系统的性能。
Jun, 2021
该研究使用预训练序列到序列模型 BART,并对其进行自适应训练来对自动语音识别中的发音和拼写错误进行纠正,并采用词级对齐的简单方法重新评分。实验结果表明,该策略在口音语音数据上有效地矫正了大量 ASR 错误,并在与基准系统的比较中产生了改进的 WER 结果。然而,在印地语语法错误纠正任务中,该模型捕捉更广泛上下文的能力受到限制。
Feb, 2022
本文使用 ChatGPT 模型作为例子,研究其在零样本或一次样本设置中执行 ASR 错误校正的能力,并提出了无约束错误校正和 N-best 约束错误校正方法。结果表明,使用强大的 ChatGPT 模型进行错误校正可以大大提高 ASR 系统性能。
Jul, 2023
本文提出了 FastCorrect 2,一种错误校正模型,并采用多候选项作为输入,以提高纠错精度。 FastCorrect 2 采用非自回归生成来进行快速推理,其中包括一个编码器,用于处理多个源语句,并且根据每个源标记的预测持续时间生成调整后的源语句;同时,提出了一种新的对齐算法和候选预测器,以最大程度地实现多个句子在令牌和发音相似性方面的令牌对齐,并检测适合解码器的最合适的候选项。实验结果表明,FastCorrect 2 可以减少单个候选者的 WER,比联级重评分和校正流水线更有效,并可用作 ASR 的统一后处理模块。
Sep, 2021
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019
通过发布 ASR 假设修正(HypR)数据集和对几种经典的代表性方法进行实现和比较,展示了修正语音识别结果的最新研究进展,希望这些公开可用的 HypR 数据集能够成为进一步研究的参考基准,并推动相关研究领域的发展。
Sep, 2023
该论文提出了一种新的 ASR 生成性错误纠正范式 ClozeGER,通过引入一种多模态 LLM(即 SpeechGPT)来改善纠正输出的忠实度,然后将 GER 重新设计为带有 logits 校准的 cloze 测试,以消除输入信息冗余并简化 GER 过程。实验证明,ClozeGER 在 9 个流行的 ASR 数据集上取得了新的突破。
May, 2024
采用外部巨大语言模型 (LLMs) 进行自动语音识别 (ASR) 错误订正的首个开源基准测试涵盖了超过 334,000 个 N-best 假设及相应准确转录数据对,通过三种不同程度标记的假设 - 转录对利用 LLMs 实现了显著的词错误率 (WER) 降低,实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力,从而纠正了 N-best 列表中缺失的标记,提供了一个基于 LLMs 的 ASR 错误订正的全新评估范式。
Sep, 2023
本文提出了一种基于编辑对齐的新型非自回归 (NAR) 自动语音识别 (ASR) 误差校正模型 FastCorrect,其将 ASR 输出语句的源词元素对齐到对应的地面真值句子的目标词元素,并根据编辑距离提取出每个源词元素对应的目标词个数,用于训练长度预测器及调整源词以进行并行生成,实验证明快速校正可以大大提高 ASR 的纠错速度,并且相比于前人的自回归校正模型和常用 NAR 模型有着更好的表现。
May, 2021