本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法,并结合蒙特卡罗 dropout 和深度集成等两种不确定度估计方法,得出质量分数以及置信区间。通过对来自 QT21 数据集和 WMT20 度量任务的多语种数据进行实验,验证了该方法的性能,进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。
Sep, 2021
本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉,以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明,搜索功能表现出色,但模型往往在假设空间中分散了太多的概率质量。此外,我们还提出了评估模型校准的工具,并展示了如何轻松解决当前模型的一些缺陷。
Feb, 2018
本文介绍了一种新的评估机器翻译不确定性的方法,通过同时评估翻译质量并提供可靠的置信度分数来实现。我们的方法利用符合性预测分布来生成具有保证覆盖率的预测区间,意味着对于任何给定的显著性水平,我们可以预期翻译的真实质量得分以 $1-ε$ 的速率落在区间之外。在本文中,我们演示了我们的方法在六种不同的语言对中优于一个简单但有效的基线,从覆盖率和锐度的角度进行评估。此外,我们验证了我们的方法需要数据可交换性假设才能实现最佳性能。
Jun, 2023
本研究通过使用基于不确定性的置信度评估,提出了一种针对噪声性合成双语语料库的反向翻译方法,实验证明该方法显著提高了反向翻译的性能。
Aug, 2019
本文提出了一种针对机器翻译 Uncertainty Prediction 的新型强大高效的不确定性预测器,在不同的数据集和应用场景中具有明显的降低计算成本和提高预测准确度的效果。
Apr, 2022
本文研究了使用平行语料库来估计由数据驱动机器翻译系统产生的翻译质量,并展示了该简单直接的方法对机器翻译系统的翻译质量估计具有潜在的应用价值。
本文研究机器翻译的不确定性评估方法,发现目前大多数方法对模型不确定性的估计较低,建议采用分布自由的合规预测法来保证覆盖度,并提出条件合规预测技术来获得每个数据子组的校准子集,从而实现覆盖率均衡。
机器翻译的实际应用中一个重要的挑战是用户缺乏决策指导,本文通过在高风险的医疗环境中模拟决策过程,评估了质量估计反馈对决策的影响,发现质量估计提高了适当依赖机器翻译的能力,但与仅使用质量估计相比,后翻译帮助医生发现了更多常常被质量估计忽视的临床上有害的错误。
Oct, 2023
提出了一种无监督方法来进行机器翻译的质量估计,该方法不需要大量专家注释数据、计算和时间来训练。该方法通过从机器翻译系统中提取有用的信息,并采用不确定性量化方法,实现了与人类判断质量的很好相关性,与最先进的监督质量估计模型相媲美。同时,他们还收集了第一个数据集,使得可以进行黑盒和白盒方法的质量估计的工作。
May, 2020
本论文介绍了一个在神经机器翻译中实现置信度估计的方法,通过让 NMT 模型向用户请求 “提示” 来确定置信度,进一步提出了利用置信度的标签平滑方法。实验结果表明,在真实世界的嘈杂和跨领域数据的情况下,该方法可以准确评估潜在的风险。
Mar, 2022