错误配置条件下的最优近似因子在离策略价值函数估计中

Jul, 2023

错误配置条件下的最优近似因子在离策略价值函数估计中

The Optimal Approximation Factors in Misspecified Off-Policy Value Function Estimation

Philip Amortila, Nan Jiang, Csaba Szepesvári

TL;DR线性离策略值函数估计中的近似因子的优化形式尚不明确，本研究通过研究加权L2范数、L∞范数、有无状态别名和状态空间完全性等设置，在所有这些设置上确定了渐近最优的近似因子（除了常数因子），特别是我们的界限确定了L2（μ）范数的两个实例相关因子和L∞范数的一个实例相关因子，从而推断出了在错误规定下离策略评估难度的因素。

Abstract

Theoretical guarantees in reinforcement learning (RL) are known to suffer multiplicative blow-up factors with respect to the misspecification error of →

发现论文，激发创造

基于分解线性模型的模型导向强化学习的策略误差界

本研究采用基于模型的方法研究在马尔科夫决策过程中计算近似最优策略的问题。我们用一种类似于线性模型的模型导出政策时的损失进行了计算，并给出了多种模型的性能界限。与其他方法导出的类似界限不同的是，我们的界限对折现因子变化不敏感，并且不受度量不匹配的影响。我们的证明基于压缩空间内运算符的收缩论证，采用构建于Banach格上的精心设计的范数来加强之前方法的预设。

Feb, 2016

适用于非政策评估的极大极小权重和Q函数学习

本文探讨了强化学习中的离线评估问题，提出了两种新的重要比率估计器，并给出了样本复杂度分析和渐进优化等结果。

Oct, 2019

极小化离线强化学习的有限样本分析：完备性，快速速率和一阶效率

本文从函数逼近和$q$函数的角度，通过最新的极小极大方法对离线策略评估(OPE)在强化学习中进行了理论刻画，并基于此结果分析了OPE的收敛速度和新的完备条件，提出了第一种在非表格环境下具有一阶效率的有限样本结果。

Feb, 2021

使用线性函数逼近的无限时域离线强化学习：维度诅咒与算法

本文研究线性函数逼近下无穷时域离线强化学习的策略评估的样本复杂性以及分布漂移假设下的算法，提出了算法的样本复杂性的下界，以及样本复杂性的上界。

Mar, 2021

线性函数逼近下的方差感知离线评估

本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率，其中针对非时变线性马尔可夫决策过程（MDPs），提出了VA-OPE算法，使用值函数的方差对Fitted Q-Iteration中的Bellman残差进行重新加权，并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述，而广泛的数值实验也支持了我们的理论。

Jun, 2021

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

线性函数逼近离线强化学习的基于实例的上界

本研究提出了一种基于Bootstrapped and Constrained Pessimistic Value Iteration算法的离线强化学习方法，该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下，该算法提供了一个快速率，即使在自适应采集的离线数据中，也能够实现绝对零的次优误差和O（1 / K）的较低界限。

Nov, 2022

基于模型的离线强化学习中的本地错误建模

我们提出了一个基于模型的离线强化学习策略性能下限，明确捕捉动力学模型误差和分布不匹配，并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择：只要动力学模型能够准确地表示给定策略访问的状态-操作对的动态特性，就可能近似该特定策略的值。我们在LQR设置下分析了我们的下限，并在一组D4RL任务的策略选择上展示了有竞争力的性能下限。

Jan, 2023

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态-动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

稀疏线性函数逼近的误差界约束下的误设 $Q$-学习

给定稀疏线性赌博机，即使在错误规定和稀疏度为常数的情况下，也可以使用多项式数量的样本获得O(ε)最优策略，这与没有稀疏度的错误规定线性赌博机需要指数数量的样本产生相同的保证形成鲜明对比。

Jul, 2024