人类赌徒反馈在序列到序列强化学习中的可靠性和可学习性

ACLMay, 2018

人类赌徒反馈在序列到序列强化学习中的可靠性和可学习性

Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning

Julia Kreutzer, Joshua Uyheng, Stefan Riezler

TL;DR探索了来自人的 bandit 反馈对强化学习的影响，用神经机器翻译作为样例。研究表明标准化的评级反馈是最可靠的，且可以通过训练出的回归模型进行序列学习从而更好地进行强化学习。

Abstract

We present a study on reinforcement learning (RL) from human bandit feedback for sequence-to-sequence learning, exemplified by the task of bandit neural machine translation (NMT). We investigate the reliability o

reinforcement learning human bandit feedback neural machine translation reward estimator cardinal feedback

发现论文，激发创造

基于强化学习的神经机器翻译波段信道模型仿真人反馈

本文提出了一种使用虚拟的人类反馈数据，通过强化学习算法，结合基于注意力机制的神经编码解码架构，优化神经机器翻译系统的方法。该算法适用于大动作空间和延迟回报的问题，并能有效优化传统机器翻译测量指标。

Jul, 2017

神经机器翻译能否通过用户反馈进行改进？

本研究在 ebay 电商平台上，使用了人类增强的方法来改进神经机器翻译 (NMT)，并通过通过跨语言搜索任务收集的隐式任务反馈，提高了翻译质量和任务效率。

Apr, 2018

神经机器翻译模型的对齐：训练和推理中的人工反馈

通过将来自人类反馈的强化学习应用于语言模型，本研究综合探索和比较不同技术，通过引入奖励模型提高机器翻译的质量，并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。

Nov, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

利用人类反馈的强化学习来提升多模态交互代理

使用人类反馈的强化学习方法，通过记录人类与模拟世界中的代理进行交互，构建能够自然交互和学习的代理行为，有效提高了代理在复杂领域中的行为表现。

Nov, 2022

一种交互式预测神经机器翻译的强化学习方法

该研究提出了一种交互式预测神经机器翻译的方法，通过人类质量判断和基于熵的不确定性准则来降低人力需求以及实现在线模型参数的更新，模拟实验表明这种方法可以显著提高翻译质量并将人力需求控制在一个较低的水平。

May, 2018

基于评级的强化学习

本文提出了一种新的基于评分的强化学习方法，利用人类评分来获取强化学习中的人类指导。该方法与现有的基于偏好和基于排名的强化学习范例不同，通过对样本轨迹的人类评估而非样本对的相对比较，基于人类评分构建了新的预测模型和新的多类损失函数。我们通过基于合成评分和真实人类评分的几个实验研究来评估新的基于评分的强化学习方法的有效性和益处。

Jul, 2023

神经序列到序列学习的赌博式结构化预测

该研究提出利用递归神经网络中的注意力机制将线性 bandit 学习推广到神经序列到序列学习问题中，并介绍如何将控制变量结合到学习算法中以实现方差缩减和改进推广，通过对神经机器翻译任务的评估，表明通过领域适应和模拟 bandit 反馈可实现高达 5.89 BLEU 点的改进。

Apr, 2017

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

神经机器翻译的强化学习研究

本文进行了一项系统性研究，比较了训练 NMT 模型的几个重要因素（例如基线奖励，奖励塑造）在强化学习中的作用，并提出了一种新的方法来利用强化学习进一步提高用单语数据训练的 NMT 系统的性能，融合了所有发现，取得了 WMT17 中英翻译任务的最高性能。

Aug, 2018