本研究利用基于模型的方法研究了离线策略评估问题的统一框架,对于一些有充分理论支持的离线任务提供了最优学习方案,研究了统一收敛的统计上限,并在局部统一收敛方面建立了统一高效的分析工具。
May, 2021
提出了一种基于符合预测的 OPE 方法,可以在给定的一定置信水平下输出包含目标策略真实奖励的区间,并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移,并在保持相同置信水平的情况下,相对于现有方法降低区间长度。
Apr, 2023
针对强化学习领域中的 Off-policy Evaluation 问题,本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法,并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法,从 Off-policy 数据中识别政策价值。
Jul, 2020
本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究,并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。
Jun, 2023
本篇文章提出了一种支持离线强化学习策略评估的新框架,该框架通过提出一种动态因子模型来处理强化学习中的双不均性,并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比,该方法不仅假设具有统计学意义,也表现出更好的性能。
本文提出一种基于原始 - 对偶优化的算法,用于构建非渐进置信区间,该算法利用了 Feng 等人(2019 年)的核贝尔曼损失(KBL)和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式,明确展示了算法的优势。
Mar, 2021
本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术,能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能
Dec, 2019
本文研究了如何在强化学习中进行非策略评估 (off-policy evaluation),当考虑马尔可夫和时间不变的结构时,给出了 OPE 的效率界限。我们开发了一种基于双重强化学习(DRL)的新估计器,利用我们推导出的高效影响函数来进行 OPE,并探讨了结构优化对 OPE 的性能提升。
Sep, 2019
本文旨在解决深度强化学习领域中的模型选择问题,并提出一种基于 Q 函数作为决策函数的正无标记(PU)分类问题的度量方法来评估离线策略评估的性能,该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程,并且在一些任务上表现优于基线算法。
Jun, 2019
通过实验基准和实证研究,我们提供了针对强化学习中的离线策略评估(OPE)的实验基准和实证研究,重点研究了实验设计的多样性以启用 OPE 方法的应力测试。我们提供了一个完整的基准套件,以研究不同属性对方法性能的相互作用,并将结果总结为实践指南。我们提供的 Caltech OPE 基准测试套件(COBS)是开源的,并邀请感兴趣的研究人员进一步贡献。
Nov, 2019