轨迹控制变量在策略梯度方法中的方差减少应用
本研究提出了一种控制变量方法,通过引入更广泛的基线函数来解决强化学习中策略梯度估计的大方差问题,实验证明该方法显著提高了最先进的策略梯度方法的样本效率。
Oct, 2017
通过对策略梯度估计器方差进行分解,发现在常见测试基准领域中,学习的状态 - 动作相关基线实际上并不降低方差,确认这一意外结果的同时,对实现细节进行细致审查并说明先前观察到的经验性增益的来源。另外,方差分解还突出了改进的领域,通过演示对典型值函数参数化的简单改变,可显著提高性能。
Feb, 2018
本研究提出了一种无偏差的基于动作的基线方法,该方法可以减少深度增强学习中梯度估计的高方差问题,最终实现高维控制问题的策略梯度算法。此外,还证明了该方法的有效性并扩展到部分观察和多智能体任务。
Mar, 2018
本文提出了一种基于线性函数逼近的政策评估算法,将经验政策评估问题转化为一个凸凹优化鞍点问题,并通过一些批量梯度方法和随机方差约减方法解决问题,在实验中取得了良好的效果。
Feb, 2017
本文介绍应用随机方差缩减梯度下降(SVRG)到无模型策略梯度中以显著提高其样本效率,并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中,我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。
Oct, 2017
本文介绍了使用控制变量的方法来减少渐变方差的影响,提出了一种贝叶斯风险最小化框架来定量评估这一方法的效果,并表明使用大量控制变量结合的方法显著提高了推理的收敛性。
Oct, 2018
本研究提出一种简单且有效的梯度截断机制,可用于加速政策梯度算法的变化减少技术,进而设计了一种名为 TSIVR-PG 的新方法,它不仅能够最大化累积奖励总和,还能在政策的长期访问分布上最大化一般效用函数,并对 TSIVR-PG 进行了理论分析。
Feb, 2021
本研究介绍了一种通用框架,用于学习随机变量的黑盒函数的低方差、无偏梯度估计器,并应用于训练离散潜变量模型以及提出了基于优势演员 - 评论家强化学习算法的无偏、行为条件扩展。
Oct, 2017
提供了一种新的方法来训练演员 - 评论家框架中的评论家,使用新的状态 - 值函数逼近,并相对于平均值学习状态(响应地状态 - 动作对)的值,而非如传统的演员 - 评论家算法所学习的绝对值,这种方法证明了其在各种连续控制任务和算法中具有理论上的一致性和实证改进,特别是在奖励稀疏的任务中。
Oct, 2020