基于操作预测的ASR误差纠正方法
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于Transformer的编码器-解码器架构,将ASR模型输出“翻译”成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在LibriSpeech基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的dev-other和test-other部分的评估数据集上。我们的模型还通过6-gram语言模型重新评分超过了基础模型,并接近于使用Transformer-XL神经语言模型重新评分的性能。
Oct, 2019
本文提出了一种基于编辑对齐的新型非自回归(NAR)自动语音识别(ASR)误差校正模型FastCorrect,其将ASR输出语句的源词元素对齐到对应的地面真值句子的目标词元素,并根据编辑距离提取出每个源词元素对应的目标词个数,用于训练长度预测器及调整源词以进行并行生成,实验证明快速校正可以大大提高ASR的纠错速度,并且相比于前人的自回归校正模型和常用NAR模型有着更好的表现。
May, 2021
本文提出了 FastCorrect 2,一种错误校正模型,并采用多候选项作为输入,以提高纠错精度。 FastCorrect 2 采用非自回归生成来进行快速推理,其中包括一个编码器,用于处理多个源语句,并且根据每个源标记的预测持续时间生成调整后的源语句;同时,提出了一种新的对齐算法和候选预测器,以最大程度地实现多个句子在令牌和发音相似性方面的令牌对齐,并检测适合解码器的最合适的候选项。实验结果表明,FastCorrect 2 可以减少单个候选者的 WER,比联级重评分和校正流水线更有效,并可用作 ASR 的统一后处理模块。
Sep, 2021
该研究使用预训练序列到序列模型BART,并对其进行自适应训练来对自动语音识别中的发音和拼写错误进行纠正,并采用词级对齐的简单方法重新评分。实验结果表明,该策略在口音语音数据上有效地矫正了大量ASR错误,并在与基准系统的比较中产生了改进的WER结果。然而,在印地语语法错误纠正任务中,该模型捕捉更广泛上下文的能力受到限制。
Feb, 2022
本文提出了SoftCorrect,一种具有软错误检测机制的误差校正方法,该方法通过由专门设计的语言模型产生的一种概率来检测单词是否正确,然后设计了一种受限制的CTC损失,仅复制检测到的错误单词,以便解码器集中进行错误单词的更正
Dec, 2022
本文提出了一种基于Transformer模型和音素编码器的新型非自回归(NAR)纠错方法,该方法通过减少单词错误率(WER)来提高转录质量,并在不同的上游ASR系统中实现了鲁棒性能,特别是在GPU硬件上实现了与其他NAR模型相当的推断延迟,并且比自回归模型快4.2-6.7倍。
Feb, 2023
本文提出了一种基于N-best T5模型和约束解码过程的语音识别自动纠错方法,通过从预训练语言模型中传递知识和获取ASR解码空间中更丰富的信息,该方法在ASR后处理中取得了更好的性能表现。
Mar, 2023
本文使用ChatGPT模型作为例子,研究其在零样本或一次样本设置中执行ASR错误校正的能力,并提出了无约束错误校正和N-best约束错误校正方法。结果表明,使用强大的ChatGPT模型进行错误校正可以大大提高ASR系统性能。
Jul, 2023
自动语音识别(ASR)误差校正中,提出了一种不依赖于训练数据的无监督检测-生成-选择框架UCorrect,它能显著减少词语错误率(WER),无需微调可达6.83%,微调后可达14.29%,显著优于其他NAR修正模型,并具有竞争性的低延迟;同时,它是一种通用方法,可减少不同解码策略和不同规模数据集上训练的ASR模型的WER。
Jan, 2024
本研究解决了自动语音识别(ASR)转录中的错误纠正模型的有效性问题,提出通过ASR N-best列表来构建高性能的错误纠正模型,从而提供更多上下文信息以改进纠正过程。实验表明,新方法在多个ASR系统上表现出色,并且能够应对不同ASR系统之间的迁移学习问题,具备零-shot错误纠正能力,具有广泛的应用潜力。
Sep, 2024