从重要性采样到双重稳健策略梯度
本文针对强化学习中的离策略评估问题,提出了一种名为 MRDR 的更加鲁棒的 Doubly Robust 估计方法,该方法通过最小化 DR 估计器的方差来学习模型参数,并在上下文决策和强化学习基准问题中进行评估,证明了其强一致性和渐进最优性。
Feb, 2018
本研究提出一种简单且有效的梯度截断机制,可用于加速政策梯度算法的变化减少技术,进而设计了一种名为 TSIVR-PG 的新方法,它不仅能够最大化累积奖励总和,还能在政策的长期访问分布上最大化一般效用函数,并对 TSIVR-PG 进行了理论分析。
Feb, 2021
本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法,用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题,并表现出在多个环境中的良好表现。
Jun, 2019
通过交替使用最小方差行为策略的对交叉熵估计和实际策略优化,结合防御性重要性采样,我们提供了一个迭代算法,理论上分析了该算法的收敛速度,并提供了经过数值验证的实际版本,展示了在策略梯度估计方差和学习速度方面的优势。
May, 2024
本文提出了一种基于学习价值函数的无偏增强方法,可用于减小通常重要性采样 (IS) 估计器的方差,消除因密度比估计误差引入的潜在高偏差,并证明其具有双倍的稳健性。
Oct, 2019
本文提出了一种基于经验似然的 OPE 估算器,相对于重要性抽样、自归一化重要性抽样和双重稳健估计具有更高的效率,并满足自归一化重要性抽样的稳定性和有界性。
Jun, 2019
本文介绍应用随机方差缩减梯度下降(SVRG)到无模型策略梯度中以显著提高其样本效率,并将 SVRG 估计组合到信赖区间牛顿共轭梯度架构中进行策略优化。在 Robotic Continuous Control 的几个 Mujoco 任务中,我们的方法比现有的无模型策略梯度方法如 Trust Region Policy Optimization (TRPO) 表现明显更好。
Oct, 2017
本文研究了从多个日志策略进行的基于离线的评估(OPE),每个策略生成一个固定大小的数据集,即分层抽样。我们通过找到具有最小方差的多个记录器的 OPE 估计器来解决此困境,并建立起了分层抽样下的效率界限,并提出了一个能够实现这个界限的估计器,当给定一致的 $q$-estimates 时。同时,我们也提出了一种选择控制变量来最小化方差的假设类的方法,以防止 $q$- 函数的误工。广泛的实验证明了我们的方法有效利用了来自多个记录器的基于策略外数据的分层抽样。
Oct, 2020
本文通过实验表明,利用重要性抽样进行策略优化的代价是很高的方差估计,提出了一种名为 “样本丢弃” 的技术,以限制重要性抽样带来的估计方差,并在一些代表性的策略优化算法上应用,如 TRPO、PPO 和 ESPO,实验证明 “样本丢弃” 可以提高这些深度强化学习算法的性能。
Feb, 2023