ESRL: 高效基于采样的序列生成的强化学习

Aug, 2023

ESRL: 高效基于采样的序列生成的强化学习

ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation

Chenglong Wang, Hang Zhou, Yimin Hu, Yifu Huo, Bei Li...

TL;DR通过引入两阶段取样和动态取样方法，我们提出了一种提高强化学习中序列生成模型取样效率的方法。我们在传统的序列生成任务上进行了实验，包括机器翻译和摘要生成。实验结果表明，这种高效取样的强化学习方法 ESRL，在训练效率和内存消耗方面都优于基线方法，并且持续获得比 REINFORCE、最小风险训练和近端策略优化方法更好的性能。

Abstract

Applying reinforcement learning (RL) to sequence generation models enables the direct optimization of long-term rewards (\textit{e.g.,} BLEU and human feedback), but typically requires large-scale sampling over a

reinforcement learning sequence generation sampling efficiency machine translation abstractive summarization

发现论文，激发创造

LaGR-SEQ: 语言引导的强化学习与高效抽样查询

通过使用大型语言模型的预测能力，我们引入了 LaGR（语言引导的强化学习）和 SEQ（样本高效查询）两个框架，用于在部分完成的任务中提出解决方案，并同时降低对语言模型的查询次数，从而更高效地进行主要强化学习训练。

Aug, 2023

无监督控制文本生成的高效强化学习

提出了一种新的方法，在无监督文本风格转换任务中使用强化学习，通过为每个生成的 token 提供密集奖励来处理稀疏奖励问题，相较于当前的奖励塑造方法，使用密集奖励提高了 22％的风格转换质量，同时训练效率提高了 2.5 倍，速度提高了 7 倍。

Apr, 2022

离线强化学习问题的序列建模方法

本文介绍了如何使用序列建模来解决强化学习问题，使用 Transformer 架构来建模轨迹上的分布，并改造了波束搜索作为规划算法，在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性，同时将该方法与基于模型的算法相结合，使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。

Jun, 2021

强化自训练（ReST）的语言建模

ReST 是一种使用离线 RL 算法通过为 LLM 生成样本来改善其策略的简单算法，可以有效地提高机器翻译的质量和效率。

Aug, 2023

探索机器翻译中的监督和无监督奖励

提出了两种方法来使机器翻译系统对训练中使用的度量函数的依赖性降低，一种是熵正则化 RL 方法，另一种是探索动态无监督奖励函数的新的 RL 方法，这些方法可改善机器翻译的质量和泛化性能，同时减少 BLEU 奖励函数对参考文本中所使用的单词的依赖。

Feb, 2021

通过样本操作提高安全强化学习的效率

通过样本操作提高安全强化学习的效率，动态调整采样过程以最大程度地最小化成本和最大化奖励之间的平衡，ESPO 理论上保证了收敛性、优化稳定性和改善样本复杂性界限。在 Safety-MuJoCo 和 Omnisafe 基准测试中，ESPO 在奖励最大化和约束满足方面明显优于现有基线方法，同时显著提高了样本效率，与基线方法相比，所需样本减少了 25-29％，训练时间减少了 21-38％。

May, 2024

MLE 和 RL 在序列预测中的联系

采用统一的熵正则化策略优化框架，将不同算法统一为特殊实例，从而提供了统一的探索与学习效率的视角。此外，本文还提出了一种动态插值的算法，用于调度序列模型的学习，实验证明其优于传统算法。

Nov, 2018

通过多次重复采样，离线强化学习算法在连续控制中具有高样本效率

该论文提出了一种基于 SMR（样本多次重用）的强化学习方法，通过多次重复使用样本，可以在单次优化循环中更好地利用它们，从而显著提高了基本方法的样本效率。

May, 2023

使用层次行动探索的深度强化学习实现对话生成

本文提出一种新的双粒度 Q 函数，通过探索最有前途的响应类型来介入采样，从而解决自然语言行动空间巨大所带来的效率问题，在多个设计用于识别人类情感细节的奖励函数中，以离线强化学习的方式学习，我们的算法在实证研究中表现优于基线方法，进一步验证表明我们的方法可以生成更高期望奖励和可控性响应。

Mar, 2023

通过对齐的经验估计实现高效的基于偏好的强化学习

PbRL 方法 SEER 通过整合标签平滑和策略规则化技术，提高了反馈效率，取得了显著的性能优势。

May, 2024