基于操作预测的 ASR 误差纠正方法
本文提出了一种基于 N-best T5 模型和约束解码过程的语音识别自动纠错方法,通过从预训练语言模型中传递知识和获取 ASR 解码空间中更丰富的信息,该方法在 ASR 后处理中取得了更好的性能表现。
Mar, 2023
本文提出了 FastCorrect 2,一种错误校正模型,并采用多候选项作为输入,以提高纠错精度。 FastCorrect 2 采用非自回归生成来进行快速推理,其中包括一个编码器,用于处理多个源语句,并且根据每个源标记的预测持续时间生成调整后的源语句;同时,提出了一种新的对齐算法和候选预测器,以最大程度地实现多个句子在令牌和发音相似性方面的令牌对齐,并检测适合解码器的最合适的候选项。实验结果表明,FastCorrect 2 可以减少单个候选者的 WER,比联级重评分和校正流水线更有效,并可用作 ASR 的统一后处理模块。
Sep, 2021
本文提出了 SoftCorrect, 一种具有软错误检测机制的误差校正方法,该方法通过由专门设计的语言模型产生的一种概率来检测单词是否正确,然后设计了一种受限制的 CTC 损失,仅复制检测到的错误单词,以便解码器集中进行错误单词的更正
Dec, 2022
该研究使用预训练序列到序列模型 BART,并对其进行自适应训练来对自动语音识别中的发音和拼写错误进行纠正,并采用词级对齐的简单方法重新评分。实验结果表明,该策略在口音语音数据上有效地矫正了大量 ASR 错误,并在与基准系统的比较中产生了改进的 WER 结果。然而,在印地语语法错误纠正任务中,该模型捕捉更广泛上下文的能力受到限制。
Feb, 2022
本文提出了一种基于编辑对齐的新型非自回归 (NAR) 自动语音识别 (ASR) 误差校正模型 FastCorrect,其将 ASR 输出语句的源词元素对齐到对应的地面真值句子的目标词元素,并根据编辑距离提取出每个源词元素对应的目标词个数,用于训练长度预测器及调整源词以进行并行生成,实验证明快速校正可以大大提高 ASR 的纠错速度,并且相比于前人的自回归校正模型和常用 NAR 模型有着更好的表现。
May, 2021
自动语音识别(ASR)误差校正中,提出了一种不依赖于训练数据的无监督检测 - 生成 - 选择框架 UCorrect,它能显著减少词语错误率(WER),无需微调可达 6.83%,微调后可达 14.29%,显著优于其他 NAR 修正模型,并具有竞争性的低延迟;同时,它是一种通用方法,可减少不同解码策略和不同规模数据集上训练的 ASR 模型的 WER。
Jan, 2024
使用解码器专用架构进行分块流式自动语音识别,通过压缩 CTC 输出和上下文嵌入的语音特征,并将其作为提示逐块顺序提供给解码器,以快速估计输出令牌,同时采用随机长度前缀提示的新型训练方案,使模型能够应对分块处理引起的截断提示,并且在 LibriSpeech test-other 数据集上相对词错误率减少了 8%,速度是基线模型的两倍。
Jun, 2024
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019
研究使用神经网络的自动语音识别系统,如何评估其预测的转录与语音输入的误差类别,评估结果指出交叉体系结构的预测错误,并查找错误来源,提出定量改善数据集和提高 ASR 系统鲁棒性的解决方案。
Apr, 2022