语音翻译中区分 ASR 和 MT 的错误
介绍了一种基于神经网络的自然语言处理方法,用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明,该方案可以显著降低概念 / 值错误率,并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制,可以识别出置信度区间和不确定性的语义输出片段,进而决定适当的错误处理措施。
May, 2017
提出了一种基于语音 / 文本内涵的新型端到端 ASR 错误检测方法,该方法通过将音频和对应的文本片段之间的内涵建模为端到端任务,并利用声学编码器和语言编码器来预测内涵,实验结果表明该方法可以有效降低医学术语方面的分类错误率 12% 和 15.4%。
Jul, 2022
本文提出了一种通过对编码器和解码器同时采用对抗学习和数据增强,使得神经机器翻译模型更加鲁棒处理语音识别误差的训练架构,并在 IWSLT2018 语音翻译任务上实现了与自然文本几乎相当的结果,在有识别噪声的 ASR 输出上比基准系统高 2.83 个 BLEU 分数。
Sep, 2019
本文提出了一种简单的技术,通过机器翻译实现 ASR 误差校正的领域自适应,我们使用了 Google ASR 和 ASPIRE 模型进行了实验,结果显示我们的方法可以使 Google ASR 输出的字错率下降 7%,其 BLEU 分数绝对值提高了 4 点;同时,通过流下游任务 Speaker Diarization,我们还评估了 ASR 误差校正,并捕捉了由 ASR 更正而获得的说话人风格、语法、结构和语义改进。
Mar, 2020
本文研究如何使强 NMT 系统适应典型 ASR 错误,并提出适应策略以训练单一系统,能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明,对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的,但在翻译干净文本时会产生轻微恶化。 在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。
Oct, 2019
研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难,并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明,相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。
Nov, 2022
研究使用神经网络的自动语音识别系统,如何评估其预测的转录与语音输入的误差类别,评估结果指出交叉体系结构的预测错误,并查找错误来源,提出定量改善数据集和提高 ASR 系统鲁棒性的解决方案。
Apr, 2022
本文提出了一种跨模态后处理系统,包括融合不同模态的声学特征和文本特征、联合置信度估计器和错误修正器以及统一的错误修正和话语拒绝模块等,证明相较于单模型或单任务模型,该系统更加有效率地减小语音识别中字符错误率 (CER),且每个单词的额外延迟在可接受范围内。
Jan, 2022
本文提出了一种端到端的可训练语音翻译模型,通过优化所有 ASR 和 MT 模型的参数而避免级联模型中的误差传播,并且通过使用人工神经网络实现 backpropagation 传递误差以实现同时提供转录和翻译,对于四个不同数据场景的实验表明,该模型在 BLEU 和 TER 方面均优于传统级联模型和直接模型。
Nov, 2020