本文从函数逼近和 $q$ 函数的角度,通过最新的极小极大方法对离线策略评估 (OPE) 在强化学习中进行了理论刻画,并基于此结果分析了 OPE 的收敛速度和新的完备条件,提出了第一种在非表格环境下具有一阶效率的有限样本结果。
Feb, 2021
本文旨在解决深度强化学习领域中的模型选择问题,并提出一种基于 Q 函数作为决策函数的正无标记(PU)分类问题的度量方法来评估离线策略评估的性能,该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程,并且在一些任务上表现优于基线算法。
Jun, 2019
该研究通过引入一个 OPE-tailored 的状态 - 动作行为相似性度量并使用固定数据集来学习该度量以增加数据效率,证明了这种度量可以限制导致的 OPE 估计误差,并通过实证研究证明这种学习表示方法相对于其他 OPE-based 表示学习方法在具有挑战性的 OPE 任务中提高了 FQE 的数据效率并降低了 OPE 误差,该方法还可以在不同分布变化时显著减轻 FQE 的发散问题。
Oct, 2023
这篇研究论文介绍了线性贝尔曼完备性下强化学习中的值迭代算法,并提供了首个多项式时间复杂度的算法。
Jun, 2024
本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率,其中针对非时变线性马尔可夫决策过程(MDPs),提出了 VA-OPE 算法,使用值函数的方差对 Fitted Q-Iteration 中的 Bellman 残差进行重新加权,并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述,而广泛的数值实验也支持了我们的理论。
Jun, 2021
该研究旨在解决强化学习中离线策略评估问题,通过同时评估策略类别中的所有策略,实现一致收敛,并获得了多种全局 / 局部策略类别的近乎最优误差界限。
Jul, 2020
本文提出一个新的变分框架,将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题,通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明,我们的方法在不同环境下都能产生紧密的置信区间。
Aug, 2020
离线强化学习中的政策选择,样本效率,离线政策评估,以及贝尔曼误差估计等方面的研究。
Dec, 2023
这篇论文讲述了在马尔科夫决策过程中 (off-policy evaluation) 基于无记忆存储的状态、行动和奖励的情况下,使用交叉折叠法来计算 $q$-functions 和边际密度比率的双重强化学习 (DRL) 的有效性研究。研究表明,在第四次方根率下估算两个因素时,DRL 具有高效性,并且当仅一个因素一致时也具有双重正确性。
Aug, 2019
通过实验基准和实证研究,我们提供了针对强化学习中的离线策略评估(OPE)的实验基准和实证研究,重点研究了实验设计的多样性以启用 OPE 方法的应力测试。我们提供了一个完整的基准套件,以研究不同属性对方法性能的相互作用,并将结果总结为实践指南。我们提供的 Caltech OPE 基准测试套件(COBS)是开源的,并邀请感兴趣的研究人员进一步贡献。
Nov, 2019