本研究提出了一种基于较小方差的边缘重要性抽样(MIS)的算法,用以解决RL中long horizon MDP的Off-policy evaluation(OPE)问题,并表现出在多个环境中的良好表现。
Jun, 2019
该论文研究了部分可观察环境下的强化学习离线策略评估的问题,针对部分可观察的马尔可夫决策过程(POMDPs)建立了离线策略评估的模型,并在新模型下对 POMDPs 进行了更准确的评估并证明了重要性采样等传统方法的局限性。
Sep, 2019
通过实验基准和实证研究,我们提供了针对强化学习中的离线策略评估(OPE)的实验基准和实证研究,重点研究了实验设计的多样性以启用OPE方法的应力测试。我们提供了一个完整的基准套件,以研究不同属性对方法性能的相互作用,并将结果总结为实践指南。我们提供的Caltech OPE 基准测试套件(COBS)是开源的,并邀请感兴趣的研究人员进一步贡献。
Nov, 2019
本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术,能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能
Dec, 2019
针对强化学习领域中的Off-policy Evaluation问题,本研究提出了一种基于无法观测到的干扰变量的无限时域Markov决策过程方法,并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法,从Off-policy数据中识别政策价值。
Jul, 2020
本研究利用基于模型的方法研究了离线策略评估问题的统一框架,对于一些有充分理论支持的离线任务提供了最优学习方案,研究了统一收敛的统计上限,并在局部统一收敛方面建立了统一高效的分析工具。
May, 2021
本研究提出了一种基于状态抽象的离线策略评估方法,采用较低维的状态空间可以降低重要性采样中方差的影响,提高评估准确性和鲁棒性。
Dec, 2022
提出了一种基于符合预测的OPE方法,可以在给定的一定置信水平下输出包含目标策略真实奖励的区间,并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移,并在保持相同置信水平的情况下,相对于现有方法降低区间长度。
Apr, 2023
在环境变化、干扰函数估计不一致和有限样本学习的情况下,本研究旨在评估策略值,并提出了一种扰动模型,可以根据转移观测对传统 MDP 进行边界估计。
Mar, 2024
本研究解决了使用离政策数据进行策略评估中的高方差和不可减少偏差问题,导致预测误差过高。提出的STAR框架通过利用状态抽象将复杂问题转化为紧凑的离散模型,从而在多个情况下显著降低均方预测误差,是一种新的离政策评估方法。实证结果显示,STAR的估计量在所有研究的案例中均优于现有方法。
Oct, 2024