关于强化学习在神经机器翻译中的缺陷

ICLRJul, 2019

关于强化学习在神经机器翻译中的缺陷

On the Weaknesses of Reinforcement Learning for Neural Machine Translation

Leshem Choshen, Lior Fox, Zohar Aizenbud, Omri Abend

TL;DR本研究通过证明机器翻译中 RL 方法不优化预期奖励的方式，并表明其他方法收敛需要时间过长，以此说明 RL 练习对机器翻译的实际贡献应该限于预先训练的参数接近正确翻译的情况，进一步推测观察到的增益可能与训练信号无关，而是由于分布曲线的形状发生了变化。

Abstract

reinforcement learning (RL) is frequently used to increase performance in text generation tasks, including machine translation (MT), notab

reinforcement learning text generation machine translation minimum risk training generative adversarial networks

发现论文，激发创造

神经机器翻译的强化学习研究

本文进行了一项系统性研究，比较了训练 NMT 模型的几个重要因素（例如基线奖励，奖励塑造）在强化学习中的作用，并提出了一种新的方法来利用强化学习进一步提高用单语数据训练的 NMT 系统的性能，融合了所有发现，取得了 WMT17 中英翻译任务的最高性能。

Aug, 2018

基于强化学习的神经机器翻译波段信道模型仿真人反馈

本文提出了一种使用虚拟的人类反馈数据，通过强化学习算法，结合基于注意力机制的神经编码解码架构，优化神经机器翻译系统的方法。该算法适用于大动作空间和延迟回报的问题，并能有效优化传统机器翻译测量指标。

Jul, 2017

神经机器翻译中大动作空间的强化学习

通过减少词汇量和有效减少行动空间，以提高强化学习在神经机器翻译中的表现，取得了显著的 BLEU 分数改善，即平均 1.5 分。

Oct, 2022

探索机器翻译中的监督和无监督奖励

提出了两种方法来使机器翻译系统对训练中使用的度量函数的依赖性降低，一种是熵正则化 RL 方法，另一种是探索动态无监督奖励函数的新的 RL 方法，这些方法可改善机器翻译的质量和泛化性能，同时减少 BLEU 奖励函数对参考文本中所使用的单词的依赖。

Feb, 2021

神经机器翻译增强对抗样本生成

通过基于强化学习的新范例生成对抗性样本，我们对神经机器翻译系统如何失败的情况进行了探究，旨在暴露给定性能度量下的缺陷，我们对两种主流的神经翻译架构，RNN-search 和 Transformer，进行了敌对攻击的实验，结果表明我们的方法有效地生成了稳定的攻击和有保留含义的对抗性样本，同时，我们还展示了攻击偏好模式的定性和定量分析，证明我们的方法能够暴露神经翻译系统的缺陷。

Nov, 2019

基于强化学习的神经机器翻译课程优化

本研究运用强化学习方法，实现神经机器翻译中异质训练数据的有效生成和利用，提出课程学习框架，相比于传统方法，该方法展现出更好的表现和更强的数据泛化能力。

Feb, 2019

基于编辑的非自回归神经机器翻译的强化学习

非自回归（NAR）语言模型在神经机器翻译（NMT）中以低延迟著称。然而，由于较大的解码空间和准确捕捉目标单词间的依赖关系的困难，在 NAR 模型和自回归模型之间存在性能差距。为了解决这些挑战，我们将强化学习（RL）应用于编辑型 NAR 模型的典型例子 Levenshtein Transformer，通过使用自生成的数据，证明 RL 可以提高编辑型 NAR 模型的性能。我们探索了两种 RL 方法：逐步奖励最大化和情节奖励最大化，讨论了这两种方法的优缺点并进行了实证验证。此外，我们在实验中研究了温度设置对性能的影响，确认正确的温度设置对 NAR 模型的训练的重要性。

May, 2024

基于充分性导向学习的神经机器翻译

通过基于强化学习的翻译策略，以翻译的充分性为奖励，提高神经机器翻译模型的翻译效果。

Nov, 2018

一种交互式预测神经机器翻译的强化学习方法

该研究提出了一种交互式预测神经机器翻译的方法，通过人类质量判断和基于熵的不确定性准则来降低人力需求以及实现在线模型参数的更新，模拟实验表明这种方法可以显著提高翻译质量并将人力需求控制在一个较低的水平。

May, 2018

神经机器翻译模型的对齐：训练和推理中的人工反馈

通过将来自人类反馈的强化学习应用于语言模型，本研究综合探索和比较不同技术，通过引入奖励模型提高机器翻译的质量，并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。

Nov, 2023