MLE 和 RL 在序列预测中的联系

Nov, 2018

Connecting the Dots Between MLE and RL for Sequence Prediction

Bowen Tan, Zhiting Hu, Zichao Yang, Ruslan Salakhutdinov, Eric Xing

TL;DR采用统一的熵正则化策略优化框架，将不同算法统一为特殊实例，从而提供了统一的探索与学习效率的视角。此外，本文还提出了一种动态插值的算法，用于调度序列模型的学习，实验证明其优于传统算法。

Abstract

sequence prediction models can be learned from example sequences with a variety of training algorithms. maximum likelihood learning is simple and efficient, yet can suffer from compounding error at test time. Rei

sequence prediction models maximum likelihood learning reinforcement learning policy gradient entropy regularized policy optimization

发现论文，激发创造

从信用分配到熵正则化：神经序列预测的两个新算法

本论文研究了奖励增强最大似然学习的信用分配问题，并在令牌级的 RAML 和熵正则化强化学习之间建立了理论等价性。在两个基准数据集上，我们展示了所提出的算法分别优于 RAML 和 Actor-Critic，为序列预测提供了新的选择。

Apr, 2018

离线强化学习问题的序列建模方法

本文介绍了如何使用序列建模来解决强化学习问题，使用 Transformer 架构来建模轨迹上的分布，并改造了波束搜索作为规划算法，在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性，同时将该方法与基于模型的算法相结合，使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。

Jun, 2021

使用简单序列先验的强化学习

使用信息熵的目标函数和可压缩动作序列作为先验，提出了一种新的强化学习算法，能够学习解决包含可压缩序列动作的任务。在一系列连续控制任务中表现比最先进的无模型方法更好，并且产生出强大的信息正则化代理，能够对噪声观测进行鲁棒控制和执行开环控制。

May, 2023

从语言到程序：强化学习与最大边际似然的结合

该研究旨在学习一个将自然语言话语映射到可执行程序的语义分析器，该过程中只有正确执行结果的标记，而没有程序的标记。该研究通过将强化学习和最大边际似然相结合，开发出一种新的学习算法。该算法通过整合 MML 的系统搜索和 RL 的随机探索，防止歧义程序的出现，并通过更新参数来更加均匀地分配概率。本研究将该算法应用于新型的神经语义分析器，并在最近的上下文相关语义分析任务中实现了显著的进展。

Apr, 2017

序列导师：带有 KL 控制的序列生成模型的保守微调

本文提出了一种改善递归神经网络 (RNN) 生成序列结构和质量的通用方法，同时保持数据原本学习的信息和样本多样性，首先使用最大似然估计 (MLE) 对 RNN 进行预训练，接着通过强化学习 (RL) 训练另一个 RNN 生成高质量的输出，该方法在生成新的音乐旋律和计算分子结构中均表现出良好效果。

Nov, 2016

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

监督学习的 MRP 公式化：广义时间差异学习模型

该研究提出了一种将数据点视为相互关联的观点，并使用马尔科夫奖励过程（MRP）进行数据建模的统计学习方法。通过引入广义的时序差分（TD）学习算法来重塑传统的有监督学习问题，并与普通最小二乘法（OLS）的解决方案建立联系。同时，该研究还证明了在特定条件下，尤其是在噪声相关时，TD 的解决方案比 OLS 更有效。在线性函数逼近下，该研究建立了广义 TD 算法的收敛性，并通过实证研究验证了理论结果，展示了该算法在各种数据集及任务（如回归和深度学习的图像分类）上的实用性。

Apr, 2024

值函数和策略函数强化学习之间的桥梁

本篇研究提出了一种新型的强化学习算法 Path Consistency Learning（PCL）基于策略及价值的联系和软一致性误差最小化，能够同时学习策略和状态价值函数，较传统算法在多种基准测试中表现更优。

Feb, 2017

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

对比策略梯度：以监督友好的方式在序列级别上对齐 LLM

Reinforcement Learning 与 Large Language Models 的直接对齐方法之间存在悬殊，因此引入了 Contrastive Policy Gradient 算法来解决，在 Summarization 任务中获得了可靠的结果。

Jun, 2024