斯坦变分策略梯度

Apr, 2017

Stein Variational Policy Gradient

Yang Liu, Prajit Ramachandran, Qiang Liu, Jian Peng

TL;DR本文提出了一种最大熵策略优化框架，该框架明确地鼓励参数探索，并表明这个框架可以被归约为一个贝叶斯推理问题。然后，我们提出了一种新颖的斯坦变分策略梯度方法 (SVPG)，该方法结合了现有的策略梯度方法和一个排斥函数来生成一组多样但行为良好的策略。在连续控制问题上，我们发现在 REINFORCE 和优势演员 - 评论家算法的基础上实现 SVPG 可以提高平均回报和数据效率。

Abstract

policy gradient methods have been successfully applied to many complex reinforcement learning problems. However, policy gradient methods s

policy gradient methods maximum entropy policy optimization stein variational policy gradient method reinforcement learning continuous control problems

发现论文，激发创造

策略梯度估计的随机方差缩减

本文介绍应用随机方差缩减梯度下降（SVRG）到无模型策略梯度中以显著提高其样本效率，并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中，我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。

Oct, 2017

随机方差缩减策略梯度

本文提出了一种新颖的基于随机方差降低策略梯度的增强学习算法，即 SVRPG，旨在解决马尔可夫决策过程中面临的非凸优化、全梯度计算误差以及采样过程的非稳定性等问题，并通过重要性权重来实现渐进无偏估计。在 MDP 标准假设下，我们提供了 SVRPG 的收敛保证，收敛速率在增加批处理大小下呈线性。最后，我们建议实际的 SVRPG 变体，并在连续 MDP 上进行了实证评估。

Jun, 2018

策略梯度方差减少方法的收敛和样本效率

本研究提出一种简单且有效的梯度截断机制，可用于加速政策梯度算法的变化减少技术，进而设计了一种名为 TSIVR-PG 的新方法，它不仅能够最大化累积奖励总和，还能在政策的长期访问分布上最大化一般效用函数，并对 TSIVR-PG 进行了理论分析。

Feb, 2021

随机方差减小策略梯度的收敛性改进分析

研究改进了 SVRPG 方法的收敛性和采样复杂度问题，并通过理论分析和实验验证了重要性采样权重和批量大小参数的影响

May, 2019

具有递归方差降低的高效策略梯度方法

该研究旨在提高强化学习中采样效率，通过提出一种名为 SRVR-PG 的新型策略梯度算法，并对其进行了数值实验以验证其性能。

Sep, 2019

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

神经变分梯度下降

本文提出了一种基于神经网络的参数化证见函数的改进 Stein 变分梯度下降方法，旨在解决传统 Stein 变分梯度下降中选择核函数的难题，经实验证明该方法在合成推理问题、贝叶斯线性回归和贝叶斯神经网络推理问题中有效可行。

Jul, 2021

少量梯度评估的政策评估 SVRG

本文提出了 Stochastic Variance-Reduced Gradient 方法的两种变体应用于 Policy Evaluation，可以显著减少梯度计算次数，同时保持线性收敛速度，理论分析表明这些方法不需要在每次迭代中使用整个数据集，仅需用于线性函数逼近问题，实验结果展示了这种方法带来的大量计算节省。

Jun, 2019

斯坦变分梯度下降：一种通用贝叶斯推断算法

本文提出了用于优化的通用变分推理算法，它是梯度下降法的一种自然补充，可以通过一种函数梯度下降来最小化 KL 距离，从而迭代地传输一组粒子以匹配目标分布。经过在各种真实世界模型和数据集上的实证研究，我们的方法与现有的最先进的方法相竞争。我们方法的推导基于一个新的理论结果，它连接了平滑转换下 KL 距离的导数与 Stein's 恒等式以及最近提出的核化的 Stein 距离，这也具有独立的兴趣。

Aug, 2016

关于斯坦变分神经网络集成

本研究研究了使用不同的 Stein 变分梯度下降方法来解决深度神经网络的 Bayesian 框架的问题，通过改善功能多样性和不确定性估计，逼近真实的 Bayesian 后验，并展示使用随机 SVGD 更新可以进一步改善性能。

Jun, 2021