使用 Softmax 策略梯度的冷启动强化学习
研究了 RL 中的 policy gradient methods,建立了 REINFORCE 算法的全局收敛理论,围绕梯度估计和采样效率等方面进行了研究。
Oct, 2020
研究表明,在强化学习中,使用数据集中的动作来逼近 softmax 比逼近 max 更为简单,并提出基于此的在线学习算法 In-Sample Actor-Critic,该算法表现良好且适合微调。
Feb, 2023
本文旨在建立一个基本框架,以增进我们对 “来自离线 RL 的热启动策略是否以及何时能够显著加速在线学习” 这个问题的理解,主要研究使用先前策略进行 A-C 方法的强化学习算法时,近似误差在有界条件下对算法的影响。
Jun, 2023
本文提出了一种新的深度强化学习算法,利用基于熵正则化的期望回报目标推导出软策略梯度,将其与软 Bellman 方程相结合,得到了名为 DSPG 的最大熵深度强化学习算法,该算法采用双重采样方法确保学习的稳定性,有效提高了表现,克服了已有方法在大规模离线数据训练以及具有高维动作状态问题的稳定性不足等问题。
Sep, 2019
本文主要研究了在无限折扣马尔可夫决策过程下,采用 softmax 策略和非线性函数逼近结合策略梯度算法的策略优化问题。研究了广泛性的单隐藏层神经网络在探索过程中的行为,证明了其在参数空间中的分布也可以确定一阶 Wasserstein 梯度流,且当参数初始化满足一定条件时,其固定点为全局最优解。
Oct, 2020
提出了一种学习连续状态和动作表达性能量策略的方法,其中软 Q 学习表达了最佳策略,该方法使用 Boltzmann 分布近似样本。通过游泳和行走机器人的模拟实验,证实了该算法的改进探索和组合性,它允许在任务之间转移技能,并且与演员 - 评论员方法存在联系,可以视为对相应能量模型进行近似推断。
Feb, 2017
研究发现 Boltzmann softmax 运算符在顺序决策制定中容易出现异常,在此基础上,提出了一种可微分的 softmax 运算符,并引入了一种基于新算子的 SARSA 算法,计算出具有状态相关温度参数的 Boltzmann 策略,该算法具有收敛性和实用性。
Dec, 2016
这篇论文介绍了一种结合动态规划和策略梯度的方法,称为动态策略梯度,其中参数是向后训练的。通过对表格 softmax 参数进行收敛性分析,我们发现动态策略梯度训练更好地利用了有限时间问题的结构,这反映在改进的收敛界限上。
Oct, 2023
本文通过基于元强化学习的会话推荐系统策略学习,提出了三个协同的组件,包括专注于识别用户偏好的元探索策略、为每个用户调整项目推荐模块以最大化推荐质量、基于 Transformer 的状态编码器,以在会话期间建模正反馈之间的复杂关系,实现对新用户的快速个性化适应,为冷启动挑战提供解决方案。实验结果表明,与一组最先进的 CRS 解决方案相比,我们的解决方案在为新用户提供服务方面具有优势。
May, 2022