基于强化学习的神经机器翻译波段信道模型仿真人反馈

EMNLPJul, 2017

基于强化学习的神经机器翻译波段信道模型仿真人反馈

Reinforcement Learning for Bandit Neural Machine Translation with Simulated Human Feedback

Khanh Nguyen, Hal Daumé III, Jordan Boyd-Graber

TL;DR本文提出了一种使用虚拟的人类反馈数据，通过强化学习算法，结合基于注意力机制的神经编码解码架构，优化神经机器翻译系统的方法。该算法适用于大动作空间和延迟回报的问题，并能有效优化传统机器翻译测量指标。

Abstract

machine translation is a natural candidate problem for reinforcement learning from human feedback: users provide quick, dirty ratings on candidate translations to guide a system to improve. Yet, current neural ma

machine translation reinforcement learning neural networks encoder-decoder architecture simulated human feedback

发现论文，激发创造

一种交互式预测神经机器翻译的强化学习方法

该研究提出了一种交互式预测神经机器翻译的方法，通过人类质量判断和基于熵的不确定性准则来降低人力需求以及实现在线模型参数的更新，模拟实验表明这种方法可以显著提高翻译质量并将人力需求控制在一个较低的水平。

May, 2018

神经机器翻译能否通过用户反馈进行改进？

本研究在 ebay 电商平台上，使用了人类增强的方法来改进神经机器翻译 (NMT)，并通过通过跨语言搜索任务收集的隐式任务反馈，提高了翻译质量和任务效率。

Apr, 2018

神经机器翻译模型的对齐：训练和推理中的人工反馈

通过将来自人类反馈的强化学习应用于语言模型，本研究综合探索和比较不同技术，通过引入奖励模型提高机器翻译的质量，并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。

Nov, 2023

基于强化和模仿的交互式预测神经机器翻译

通过交互式预测神经机器翻译框架进行模型个性化，并借助强化学习和模仿学习的方法。在交互式的过程中，用户可以反馈不确定区域的翻译结果，并能提交编辑建议，我们通过集成这些反馈，使用约束束搜索，对模型进行调整迭代，实验结果表明，相对于传统监督模型，该模型更易于个性化，并且具有相近的翻译性能

Jul, 2019

人类赌徒反馈在序列到序列强化学习中的可靠性和可学习性

探索了来自人的 bandit 反馈对强化学习的影响，用神经机器翻译作为样例。研究表明标准化的评级反馈是最可靠的，且可以通过训练出的回归模型进行序列学习从而更好地进行强化学习。

May, 2018

神经机器翻译的强化学习研究

本文进行了一项系统性研究，比较了训练 NMT 模型的几个重要因素（例如基线奖励，奖励塑造）在强化学习中的作用，并提出了一种新的方法来利用强化学习进一步提高用单语数据训练的 NMT 系统的性能，融合了所有发现，取得了 WMT17 中英翻译任务的最高性能。

Aug, 2018

关于强化学习在神经机器翻译中的缺陷

本研究通过证明机器翻译中 RL 方法不优化预期奖励的方式，并表明其他方法收敛需要时间过长，以此说明 RL 练习对机器翻译的实际贡献应该限于预先训练的参数接近正确翻译的情况，进一步推测观察到的增益可能与训练信号无关，而是由于分布曲线的形状发生了变化。

Jul, 2019

自然语言引导的强化学习探索

本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法，使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联，并使用改进的策略塑造算法来指导智能体探索，从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价，表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。

Jul, 2017

通过自然语言反馈在目标条件下强化学习中的利用

通过使用自动生成的语言反馈以及改进的决策变压器架构，在强化学习中引入更丰富、更贴近人类反馈的方式可以改善智能体的泛化性能。

Dec, 2023

利用人类反馈的强化学习来提升多模态交互代理

使用人类反馈的强化学习方法，通过记录人类与模拟世界中的代理进行交互，构建能够自然交互和学习的代理行为，有效提高了代理在复杂领域中的行为表现。

Nov, 2022