强化学习中的高效多策略评估
本文提出了一种新的方法来预测在给定历史数据的情况下,加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合,提出一个基于双重稳健估计器扩展的新估计器,使得估计结果的均方误差通常比现有方法低几个数量级。
Apr, 2016
本文提出了一种基于线性函数逼近的政策评估算法,将经验政策评估问题转化为一个凸凹优化鞍点问题,并通过一些批量梯度方法和随机方差约减方法解决问题,在实验中取得了良好的效果。
Feb, 2017
本文使用基于梯度的优化技术,旨在找到不同行为的多样化的性能良好的策略集,在强化学习方法中,鉴别近似最优策略集的重要性被正式化和研究,并在基准测试和医疗保健任务中展示了应用效果。
May, 2019
本文研究了如何在强化学习中进行非策略评估(off-policy evaluation),当考虑马尔可夫和时间不变的结构时,给出了OPE的效率界限。我们开发了一种基于双重强化学习(DRL)的新估计器,利用我们推导出的高效影响函数来进行OPE,并探讨了结构优化对OPE的性能提升。
Sep, 2019
本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术,能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能
Dec, 2019
本文提出了一种简单有效的算法,通过构建独立的策略集合,可以在不需要大量数据的情况下,在各种复杂的强化学习任务中实现高水平的性能表现,同时解决了基于线性特征函数的多个任务的奖励子问题,并应用于终身强化学习设置中。
Dec, 2021
透过引入自适应的离策略采样方法,本文提出了一种能够改进策略梯度算法数据效率的采样方法 PROPS 去减少采样误差并通过调整旧策略的数据分布使其接近策略梯度算法的数据要求,实验证明此方法能够减少采样误差并提高策略梯度算法的数据效率。
Nov, 2023
通过解决多步GCRL中的偏差问题,本文提出了一种方法来提高学习效率,并在实证研究中证明该方法在十步学习场景下能够优于基线和多步GCRL的几个先进模型。
Nov, 2023
本文针对强化学习中策略评估的高方差问题进行研究,提出了一种数据收集策略与数据处理基线的最优组合。我们理论上证明了该双重最优策略评估方法是无偏的,并且方差低于现有最佳方法,实验证明该方法显著降低了方差并提升了实证性能。
Oct, 2024