基于不确定性置信度评估的反向翻译优化
本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉,以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明,搜索功能表现出色,但模型往往在假设空间中分散了太多的概率质量。此外,我们还提出了评估模型校准的工具,并展示了如何轻松解决当前模型的一些缺陷。
Feb, 2018
本研究提出在跨熵优化的范畴中改进后向翻译,其涵盖包括从目标到源 NMT 模型中进行采样的更广泛的合成数据生成方案,并在 WMT 2018 德语-英语新闻翻译任务上验证了我们的陈述。
Jun, 2019
通过利用附加单语资源来创建合成训练数据,可以提高神经机器翻译的质量,本文探讨了前向翻译和反向翻译在翻译源语句子和目标语句子时的优点,并研究了不同地域、语言和噪音环境下翻译的影响。另外,本文还给出了低资源情况下前向和反向翻译的比较。
Nov, 2019
本文提出了一种新的方式用于神经机器翻译的模型训练,通过对多个具有相同语义的源语言句子进行明确抓取通用的语义信息以提高模型性能。在各类翻译任务的实验中,本方法表现显著优于现有方法。
Oct, 2020
本文提出了一种基于不确定性采样的自训练方法,通过选择最具信息价值的单一语言句子来补充平行数据,以提高NMT的性能,在大规模数据集上进行实验证明了这种方法的有效性,并表明该方法能够提高翻译质量和预测低频单词。
Jun, 2021
本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法,并结合蒙特卡罗dropout和深度集成等两种不确定度估计方法,得出质量分数以及置信区间。通过对来自QT21数据集和WMT20度量任务的多语种数据进行实验,验证了该方法的性能,进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。
Sep, 2021
本论文介绍了一个在神经机器翻译中实现置信度估计的方法,通过让NMT模型向用户请求“提示”来确定置信度,进一步提出了利用置信度的标签平滑方法。实验结果表明,在真实世界的嘈杂和跨领域数据的情况下,该方法可以准确评估潜在的风险。
Mar, 2022
该篇论文从不确定性的角度出发,提出两种轻量级的方法解决零-shot翻译的偏差问题,并在平衡和不平衡数据集上进行实验,证实这些方法显著提高了在强 MNMT 基线上的零-shot翻译的性能,并提供了定量分析的见解。
May, 2022