神经机器翻译的不确定性感知语义增强

Oct, 2020

神经机器翻译的不确定性感知语义增强

Uncertainty-Aware Semantic Augmentation for Neural Machine Translation

Xiangpeng Wei, Heng Yu, Yue Hu, Rongxiang Weng, Luxi Xing...

TL;DR本文提出了一种新的方式用于神经机器翻译的模型训练，通过对多个具有相同语义的源语言句子进行明确抓取通用的语义信息以提高模型性能。在各类翻译任务的实验中，本方法表现显著优于现有方法。

Abstract

As a sequence-to-sequence generation task, neural machine translation (NMT) naturally contains intrinsic uncertainty, where a single sentence in one language has multiple valid counterparts in the other. However,

发现论文，激发创造

神经机器翻译中的不确定性分析

本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉，以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明，搜索功能表现出色，但模型往往在假设空间中分散了太多的概率质量。此外，我们还提出了评估模型校准的工具，并展示了如何轻松解决当前模型的一些缺陷。

Feb, 2018

基于不确定性置信度评估的反向翻译优化

本研究通过使用基于不确定性的置信度评估，提出了一种针对噪声性合成双语语料库的反向翻译方法，实验证明该方法显著提高了反向翻译的性能。

Aug, 2019

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019

检测非分布式翻译的变分转换器

使用等效于Transformer模型的贝叶斯深度学习方法检测神经机器翻译中的训练数据分布外句子。我们使用长序列离散随机变量的新不确定性衡量法解决了现有方法在长句子上不适用的问题，并在使用dropout的Transformer模型上执行德语-英语翻译任务，证明我们的方法能够当Dutch源句子输入时区分其与德语句子。

Jun, 2020

神经机器翻译鲁棒性的句子边界增强

本文针对信息输入过程中产生的错误，并基于错误分析提出了一种简单的数据增强策略，以提高神经机器翻译系统中句子边界分割的鲁棒性。

Oct, 2020

不确定性感知的机器翻译评估

本研究介绍了一种基于神经网络度量的机器翻译质量不确定性评估方法，并结合蒙特卡罗dropout和深度集成等两种不确定度估计方法，得出质量分数以及置信区间。通过对来自QT21数据集和WMT20度量任务的多语种数据进行实验，验证了该方法的性能，进一步探讨了不依赖参考文献的不确定性评估在发现可能的翻译错误中的应用。

Sep, 2021

不确定性决定了序列到序列模型的适用性和解码的可操作性

通过测量自然语言处理中 intristic uncertainty 的程度，我们发现它会对搜索过程的归纳偏差和精确搜索的复杂度等方面产生重大影响，并提出了一种新的精确搜索算法用于神经序列模型，发现intristic uncertainty 会影响模型的不确定性，从而导致概率质量过度分散。

Apr, 2022

学习扩展泛化：面向神经机器翻译的连续语义增强

该论文提出了一种新的数据增强模型Continuous Semantic Augmentation (CsaNMT), 该模型可以使神经机器翻译模型在低资源环境中表现出更好的泛化性能和更高的翻译质量。通过丰富训练数据，提高了机器翻译的性能，并在多个语言翻译任务中取得了大幅度的提升。

Apr, 2022

理解与缓解零样本翻译中的不确定性

该篇论文从不确定性的角度出发，提出两种轻量级的方法解决零-shot翻译的偏差问题，并在平衡和不平衡数据集上进行实验，证实这些方法显著提高了在强 MNMT 基线上的零-shot翻译的性能，并提供了定量分析的见解。

May, 2022

基于条件掩码语言模型的神经机器翻译语义一致数据增强

本文介绍了一种新的神经机器翻译数据增强方法，可以在语言内外强制实现更强的语义一致性。结果表明，条件掩蔽语言模型是一种生成上下文相关单词分布的有效技术，并集成了软词替换的思想，以增强数据多样性，加强语义一致性。该方法在四个规模不同的翻译数据集上进行的实验结果，展示了更真实的数据增强和更好的翻译质量，相对于强和最新的工作，我们的方法一致实现了最佳性能，并相对于基线改进了高达1.90 BLEU分数。

Sep, 2022