基于不确定性置信度评估的反向翻译优化

Aug, 2019

基于不确定性置信度评估的反向翻译优化

Improving Back-Translation with Uncertainty-based Confidence Estimation

Shuo Wang, Yang Liu, Chao Wang, Huanbo Luan, Maosong Sun

TL;DR本研究通过使用基于不确定性的置信度评估，提出了一种针对噪声性合成双语语料库的反向翻译方法，实验证明该方法显著提高了反向翻译的性能。

Abstract

While back-translation is simple and effective in exploiting abundant monolingual corpora to improve low-resource neural machine translation (nmt), the →

发现论文，激发创造

神经机器翻译中的不确定性分析

本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉，以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明，搜索功能表现出色，但模型往往在假设空间中分散了太多的概率质量。此外，我们还提出了评估模型校准的工具，并展示了如何轻松解决当前模型的一些缺陷。

Feb, 2018

神经机器翻译中的反向翻译泛化

本研究提出在跨熵优化的范畴中改进后向翻译，其涵盖包括从目标到源 NMT 模型中进行采样的更广泛的合成数据生成方案，并在 WMT 2018 德语-英语新闻翻译任务上验证了我们的陈述。

Jun, 2019

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019

神经机器翻译合成数据中的领域、翻译语体和噪声

通过利用附加单语资源来创建合成训练数据，可以提高神经机器翻译的质量，本文探讨了前向翻译和反向翻译在翻译源语句子和目标语句子时的优点，并研究了不同地域、语言和噪音环境下翻译的影响。另外，本文还给出了低资源情况下前向和反向翻译的比较。

Nov, 2019

神经机器翻译的不确定性感知语义增强

本文提出了一种新的方式用于神经机器翻译的模型训练，通过对多个具有相同语义的源语言句子进行明确抓取通用的语义信息以提高模型性能。在各类翻译任务的实验中，本方法表现显著优于现有方法。

Oct, 2020

利用单语数据不确定性的自训练采样在神经机器翻译中的应用

本文提出了一种基于不确定性采样的自训练方法，通过选择最具信息价值的单一语言句子来补充平行数据，以提高NMT的性能，在大规模数据集上进行实验证明了这种方法的有效性，并表明该方法能够提高翻译质量和预测低频单词。

Jun, 2021

不确定性感知的机器翻译评估

本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法，并结合蒙特卡罗dropout和深度集成等两种不确定度估计方法，得出质量分数以及置信区间。通过对来自QT21数据集和WMT20度量任务的多语种数据进行实验，验证了该方法的性能，进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。

Sep, 2021

基于Transformer的神经机器翻译学习自信度

本论文介绍了一个在神经机器翻译中实现置信度估计的方法，通过让NMT模型向用户请求“提示”来确定置信度，进一步提出了利用置信度的标签平滑方法。实验结果表明，在真实世界的嘈杂和跨领域数据的情况下，该方法可以准确评估潜在的风险。

Mar, 2022

理解与缓解零样本翻译中的不确定性

该篇论文从不确定性的角度出发，提出两种轻量级的方法解决零-shot翻译的偏差问题，并在平衡和不平衡数据集上进行实验，证实这些方法显著提高了在强 MNMT 基线上的零-shot翻译的性能，并提供了定量分析的见解。

May, 2022

大规模多语言神经机器翻译的鲁棒性实证研究

我们通过实证研究了印度尼西亚-汉语翻译在不同噪声环境下的翻译稳健性，并创建了一个用于评估翻译稳健性的基准数据集。

May, 2024