使用 Softmax 策略梯度的冷启动强化学习

Sep, 2017

使用 Softmax 策略梯度的冷启动强化学习

Cold-Start Reinforcement Learning with Softmax Policy Gradient

Nan Ding, Radu Soricut

TL;DR本文提出了一种基于 softmax 价值函数的强化学习方法，它不需要 warm-start 和样本方差的降低，结合了 policy-gradient 方法和最大似然方法的优点，用于训练结构化输出预测问题的序列生成模型，经实验证明，在文本自动摘要和图像字幕生成任务上性能良好。

Abstract

Policy-gradient approaches to reinforcement learning have two common and undesirable overhead procedures, namely warm-start training and sample variance reduction. In this paper, we describe a reinforcement learning

reinforcement learning softmax value function cold-start sequence generation models automatic summarization

发现论文，激发创造

使用 REINFORCE 的高效样本强化学习

研究了 RL 中的 policy gradient methods，建立了 REINFORCE 算法的全局收敛理论，围绕梯度估计和采样效率等方面进行了研究。

Oct, 2020

离线强化学习中的样本内 Softmax

研究表明，在强化学习中，使用数据集中的动作来逼近 softmax 比逼近 max 更为简单，并提出基于此的在线学习算法 In-Sample Actor-Critic，该算法表现良好且适合微调。

Feb, 2023

Warm-Start Actor-Critic: 从逼近误差到次优间隔

本文旨在建立一个基本框架，以增进我们对 “来自离线 RL 的热启动策略是否以及何时能够显著加速在线学习” 这个问题的理解，主要研究使用先前策略进行 A-C 方法的强化学习算法时，近似误差在有界条件下对算法的影响。

Jun, 2023

最大熵深度强化学习的软策略梯度方法

本文提出了一种新的深度强化学习算法，利用基于熵正则化的期望回报目标推导出软策略梯度，将其与软 Bellman 方程相结合，得到了名为 DSPG 的最大熵深度强化学习算法，该算法采用双重采样方法确保学习的稳定性，有效提高了表现，克服了已有方法在大规模离线数据训练以及具有高维动作状态问题的稳定性不足等问题。

Sep, 2019

单隐藏层神经网络在均场极限下 softmax 策略梯度的全局最优性

本文主要研究了在无限折扣马尔可夫决策过程下，采用 softmax 策略和非线性函数逼近结合策略梯度算法的策略优化问题。研究了广泛性的单隐藏层神经网络在探索过程中的行为，证明了其在参数空间中的分布也可以确定一阶 Wasserstein 梯度流，且当参数初始化满足一定条件时，其固定点为全局最优解。

Oct, 2020

具有深度能量策略的强化学习

提出了一种学习连续状态和动作表达性能量策略的方法，其中软 Q 学习表达了最佳策略，该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验，证实了该算法的改进探索和组合性，它允许在任务之间转移技能，并且与演员 - 评论员方法存在联系，可以视为对相应能量模型进行近似推断。

Feb, 2017

强化学习中的另一种 Softmax 算子

研究发现 Boltzmann softmax 运算符在顺序决策制定中容易出现异常，在此基础上，提出了一种可微分的 softmax 运算符，并引入了一种基于新算子的 SARSA 算法，计算出具有状态相关温度参数的 Boltzmann 策略，该算法具有收敛性和实用性。

Dec, 2016

政策梯度方法的基本分析

在本文中，我们对以往的优化方法进行系统研究，讨论了削影策略梯度、softmax 策略梯度、自然策略梯度等算法的全局和局部收敛性，提出了新的结果和分析技术。

Apr, 2024

超越稳态：随机 Softmax 策略梯度方法的收敛分析

这篇论文介绍了一种结合动态规划和策略梯度的方法，称为动态策略梯度，其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析，我们发现动态策略梯度训练更好地利用了有限时间问题的结构，这反映在改进的收敛界限上。

Oct, 2023

针对冷启动对话推荐的元策略学习

本文通过基于元强化学习的会话推荐系统策略学习，提出了三个协同的组件，包括专注于识别用户偏好的元探索策略、为每个用户调整项目推荐模块以最大化推荐质量、基于 Transformer 的状态编码器，以在会话期间建模正反馈之间的复杂关系，实现对新用户的快速个性化适应，为冷启动挑战提供解决方案。实验结果表明，与一组最先进的 CRS 解决方案相比，我们的解决方案在为新用户提供服务方面具有优势。

May, 2022