检测机器翻译中单词义消歧偏差的方法，以进行模型无关的对抗攻击

EMNLPNov, 2020

检测机器翻译中单词义消歧偏差的方法，以进行模型无关的对抗攻击

Detecting Word Sense Disambiguation Biases in Machine Translation for Model-Agnostic Adversarial Attacks

Denis Emelin, Ivan Titov, Rico Sennrich

TL;DR本文针对神经机器翻译模型在词义消歧中由于过度依赖训练数据中的表浅词共现而产生的错误提出了一种基于统计数据特性的预测方法，并在多个领域和模型类型中验证了其有效性。同时，我们还开发了一种简单的对抗攻击策略，最小化地扰动句子以引发消歧错误，以进一步探索翻译模型的鲁棒性。我们的发现表明不同领域中的消歧鲁棒性差异很大，并且在相同数据上训练的不同模型容易遭受不同的攻击。

Abstract

word sense disambiguation is a well-known source of translation errors in nmt. We posit that some of the incorrect disambiguation choices are due to models' over-reliance on →

word sense disambiguation nmt dataset artifacts disambiguation errors adversarial attack strategy

发现论文，激发创造

将弱监督的词义消歧集成到神经机器翻译中

本研究探讨了利用词义消歧算法扩大上下文范围提高神经机器翻译的效果，通过引入三种自适应聚类算法进行了验证并在 SemEval 数据上进行了评估，随后在一个最先进的 NMT 系统中联合学习单词向量和最佳 WSD 算法定义的词义向量，最终证明这种方法可以优于几个基准模型。

Oct, 2018

以词义进行编码切换的神经网络机器翻译预训练

我们介绍了一种使用知识库中词义特定信息进行预训练的多语言神经机器翻译模型的端到端方法，通过实验证明了我们方法在整体翻译质量上有显著改进，并且在 DiBiMT 消歧测试中显示出了精确性改进的鲁棒性。

Oct, 2023

神经机器翻译系统上的情感感知对抗攻击

本篇研究探讨了针对神经机器翻译（NMT）系统的对抗性攻击，通过输出感知角度考虑潜在的攻击方式，实验结果表明 NMT 系统输出序列的情感感知可以被显著改变。

May, 2023

通过对抗学习缓解机器翻译中的性别偏见

本文介绍了一种基于对抗学习的机器翻译性别偏见缓解框架，该框架通过在预训练的大型语言模型上微调网络目标，以及从数据自身推断保护变量的任务中开发措施，实现了对机器翻译中的性别偏见的缓解，提高了男女实体翻译质量的差异。

Mar, 2022

注意力机制分析：基于神经机器翻译的词义消歧案例

本文研究了神经机器翻译中编码器 - 解码器注意机制的特点，发现当翻译含义模糊的词汇时，注意机制更关注上下文标记。但与其他名词相比，注意机制更容易将更多注意力分配给模糊的名词本身而不是上下文标记，因此得出结论：注意机制不是神经机器翻译模型用于词义消歧所使用的主要机制之一。实验结果表明，NMT 模型在编码器隐藏状态中学习编码所需的上下文信息，而用于 Transformer 模型的注意机制表现为前几层逐渐了解源和目标标记，而最后几层学习从相关但不对齐的上下文标记中提取特征信息。

Oct, 2018

神经机器翻译中的不确定性分析

本研究提出了工具和度量方法来评估机器翻译模型中数据不确定性的捕捉，以及这种不确定性如何影响生成翻译的搜索策略。我们的结果表明，搜索功能表现出色，但模型往往在假设空间中分散了太多的概率质量。此外，我们还提出了评估模型校准的工具，并展示了如何轻松解决当前模型的一些缺陷。

Feb, 2018

基于大型语言模型的机器翻译的有效消歧

通过利用大型语言模型，我们研究了在机器翻译中解决语义歧义的能力，并提出了两种改进方法，通过上下文学习和在精心策划的歧义数据集上的微调，我们的方法在五种语言方向中有四种能够匹敌或胜过 DeepL 和 NLLB 等最先进的系统，为将大型语言模型有效地用于歧义消解的机器翻译提供了有价值的见解。

Sep, 2023

机器翻译模型面对敌对攻击表现强劲

深度学习模型中的对抗攻击通过对输入进行微小扰动，从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列（seq2seq）模型的影响，特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略，例如基于梯度的攻击，该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查，我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性，因为输出中的扰动程度与输入中的扰动成正比。然而，在次优方法中，我们的攻击方法优于其他方法，提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。

Sep, 2023

神经机器翻译增强对抗样本生成

通过基于强化学习的新范例生成对抗性样本，我们对神经机器翻译系统如何失败的情况进行了探究，旨在暴露给定性能度量下的缺陷，我们对两种主流的神经翻译架构，RNN-search 和 Transformer，进行了敌对攻击的实验，结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本，同时，我们还展示了攻击偏好模式的定性和定量分析，证明我们的方法能够暴露神经翻译系统的缺陷。

Nov, 2019

基于显著文档上下文的神经机器翻译中改进词义消岐

通过在神经机器翻译中引入少量非句内语境，我们提出了一种简单且可扩展的方法来解决翻译歧义问题，无需语义标注和对标准模型体系结构进行修改，并且通过减少训练成本，优于句级基线和可比的文档级基线。

Nov, 2023