具有递归方差降低的高效策略梯度方法
本文提出一种有效的基于参数探索的政策梯度算法,通过结合梯度估计的再利用、重要性采样和优化基准线等三个思想,成功地降低了算法的方差,从而实现计算高效的政策更新。理论分析和实验说明了该方法的实用性。
Jan, 2013
本研究提出一种简单且有效的梯度截断机制,可用于加速政策梯度算法的变化减少技术,进而设计了一种名为TSIVR-PG的新方法,它不仅能够最大化累积奖励总和,还能在政策的长期访问分布上最大化一般效用函数,并对TSIVR-PG进行了理论分析。
Feb, 2021
提出一种名为SHARP的基于二阶信息和具有时间变化的学习率的动量随机梯度下降方法,实现一阶可压缩的稳定点,无需重要性采样,具有O(1 / t ^ {2/3})的误差估计方差下降速率。实验结果表明该算法在控制任务上比现有算法效果更好。
May, 2022
本文研究了将强化学习转化为一系列关于策略空间的经验风险最小化问题的样本复杂度问题。本文提出的共产主义政策迭代的方差递减变种可以将从O(ε^-4)到O(ε^-3)的功能局部最优解的样本复杂度改进。在状态覆盖和政策完整性的假设下,该算法在采样O(ε^-2)次后享有ε-全局最优性,这改善了以前已经建立的O(ε^-3)样本要求。
Dec, 2022
我们提出了一种更简单的单循环,无参数归一化策略梯度算法,用于解决具有一般效用的强化学习问题,其中包括约束强化学习,纯探索以及从演示中学习等问题,同时通过线性函数逼近解决大状态-动作空间的设置,并展示了简单的策略梯度法的样本复杂度。
Jun, 2023
我们提出了一种使用Hessian矩阵-向量积的方差约简二阶方法,其样本复杂度为~O(ε^(-3)),并收敛于近似二阶稳定点(SOSP)。该方法通过使用HVP项在不使用IS权重的情况下改善了达到近似SOSPs的最佳已知样本复杂度的速率,实验结果表明该算法优于现有技术,并对随机种子变化更稳健。
Nov, 2023
通过交替使用最小方差行为策略的对交叉熵估计和实际策略优化,结合防御性重要性采样,我们提供了一个迭代算法,理论上分析了该算法的收敛速度,并提供了经过数值验证的实际版本,展示了在策略梯度估计方差和学习速度方面的优势。
May, 2024