神经机器翻译中大动作空间的强化学习

COLINGOct, 2022

神经机器翻译中大动作空间的强化学习

Reinforcement Learning with Large Action Spaces for Neural Machine Translation

Asaf Yehudai, Leshem Choshen, Lior Fox, Omri Abend

TL;DR通过减少词汇量和有效减少行动空间，以提高强化学习在神经机器翻译中的表现，取得了显著的 BLEU 分数改善，即平均 1.5 分。

Abstract

Applying reinforcement learning (RL) following maximum likelihood estimation (MLE) pre-training is a versatile method for enhancing neural machine translation (NMT) performance. However, recent work has argued th

reinforcement learning maximum likelihood estimation neural machine translation vocabulary size action space

发现论文，激发创造

神经机器翻译的强化学习研究

本文进行了一项系统性研究，比较了训练 NMT 模型的几个重要因素（例如基线奖励，奖励塑造）在强化学习中的作用，并提出了一种新的方法来利用强化学习进一步提高用单语数据训练的 NMT 系统的性能，融合了所有发现，取得了 WMT17 中英翻译任务的最高性能。

Aug, 2018

通过词汇预测加速强化学习句子生成

通过使用动态词汇预测的方法来缩小活动空间，从而提高了基于强化学习的句子生成效率，在 6 个机器翻译和 2 个图像字幕数据集上的实验证明，该方法比全词汇方法更快，使用的 GPU 内存更少，并且在 CPU 上的解码速度也更快，并且强化学习的 BLEU 分数得到了显著提高。

Sep, 2018

关于强化学习在神经机器翻译中的缺陷

本研究通过证明机器翻译中 RL 方法不优化预期奖励的方式，并表明其他方法收敛需要时间过长，以此说明 RL 练习对机器翻译的实际贡献应该限于预先训练的参数接近正确翻译的情况，进一步推测观察到的增益可能与训练信号无关，而是由于分布曲线的形状发生了变化。

Jul, 2019

探索机器翻译中的监督和无监督奖励

提出了两种方法来使机器翻译系统对训练中使用的度量函数的依赖性降低，一种是熵正则化 RL 方法，另一种是探索动态无监督奖励函数的新的 RL 方法，这些方法可改善机器翻译的质量和泛化性能，同时减少 BLEU 奖励函数对参考文本中所使用的单词的依赖。

Feb, 2021

基于充分性导向学习的神经机器翻译

通过基于强化学习的翻译策略，以翻译的充分性为奖励，提高神经机器翻译模型的翻译效果。

Nov, 2018

基于编辑的非自回归神经机器翻译的强化学习

非自回归（NAR）语言模型在神经机器翻译（NMT）中以低延迟著称。然而，由于较大的解码空间和准确捕捉目标单词间的依赖关系的困难，在 NAR 模型和自回归模型之间存在性能差距。为了解决这些挑战，我们将强化学习（RL）应用于编辑型 NAR 模型的典型例子 Levenshtein Transformer，通过使用自生成的数据，证明 RL 可以提高编辑型 NAR 模型的性能。我们探索了两种 RL 方法：逐步奖励最大化和情节奖励最大化，讨论了这两种方法的优缺点并进行了实证验证。此外，我们在实验中研究了温度设置对性能的影响，确认正确的温度设置对 NAR 模型的训练的重要性。

May, 2024

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

基于强化学习的神经机器翻译课程优化

本研究运用强化学习方法，实现神经机器翻译中异质训练数据的有效生成和利用，提出课程学习框架，相比于传统方法，该方法展现出更好的表现和更强的数据泛化能力。

Feb, 2019

利用大型语言模型指导强化学习的预训练

提出了一种名为 ELLM（LLM 探索）的方法，它利用来自文本语料库的背景知识来塑造探索，通过利用大规模语言模型预训练，无需人介入便能引导智能体朝向有人类意义的和可能有用的行为方向，通过在 Crafter 游戏环境和 Housekeep 机器人模拟器中的实验，证明了 ELLM 训练的代理在预训练期间具有更好的常识行为覆盖，并且在一系列下游任务中通常与或优于性能。

Feb, 2023

大型部分可观察环境中的顺序计划引导 LLMs

通过结合状态空间搜索和基于自然语言模型的查询，我们提出了一种混合代理方法 neoplanner，以最大化状态值的上界来平衡探索和开发，并通过查询自然语言模型以生成行动计划，进一步提高了大规模状态空间和行动空间的顺序规划的性能。

Dec, 2023