离线强化学习：值函数逼近的基本限制

Nov, 2021

离线强化学习：值函数逼近的基本限制

Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation

Dylan J. Foster, Akshay Krishnamurthy, David Simchi-Levi, Yunzong Xu

TL;DR本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Abstract

We consider the offline reinforcement learning problem, where the aim is to learn a decision making policy from logged data. Offline RL -- particularly when coupled with (value) function approximation to allow for generalization in large or continuous state spaces -- is becoming increa

offline reinforcement learning value function approximation sample complexity coverage conditions representation conditions

发现论文，激发创造

线性函数逼近离线强化学习的统计限制是什么？

本文研究提供确凿的样本高效离线强化学习算法需要什么样的可表示和分布条件。研究发现，即使有到所有策略的真实价值函数都线性映射到一组给定的特征，并且有关于策略的所有特征的良好聚集离线数据（在强谱条件下），任何算法仍然需要指数级的离线样本数量来估计任何给定策略的价值。

Oct, 2020

基于价值和密度比实现的离线强化学习：间隙的威力

本研究针对离线强化学习中的样本利用效率问题，提出了基于地位结构的重要性采样（MIS）的悲观算法，并利用较弱的函数逼近前提给出保证。

Mar, 2022

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

离线强化学习中，价值学习真的是主要瓶颈吗？

离线强化学习的性能问题一直存在着，本研究通过比较值函数学习、策略提取和策略泛化这三个组件对离线强化学习的性能进行了系统的实证研究，发现策略提取算法的选择对离线强化学习的性能和可扩展性有着显著影响，同时，离线强化学习的性能问题主要还是由训练数据支持范围之外的测试状态上的策略泛化不完善所导致。本研究提出了两种简单的测试时间策略优化方法，并证明这些方法可以改善离线强化学习的性能。

Jun, 2024

具可实现性和单策略集中性的离线强化学习

本文研究除去 Bellman-completeness 和 all-policy concentrability 强假设是否可以在两个因素上弱化假设，结果证明基于 MDPs 的原始 - 对偶算法可以实现针对单策略可集中性的多项式样本复杂度，提供了不同假设的替代分析，为离线 RL 的原始 - 对偶算法提供新方法。

Feb, 2022

离线强化学习：状态聚合和轨迹数据的作用

离线强化学习中，对于具有价值函数的可实现性但不具备 Bellman 完备性的问题，我们提供了关于离线策略评估任务的负回答，并揭示了聚合马尔可夫转移模型中的集中度系数在样本复杂性中的重要性，即使原始 MDP 中的集中度系数较小且离线数据可接受，聚合的集中度系数仍可能呈指数增长，而轨迹数据相对于可接受的数据并没有额外的好处。

Mar, 2024

通过可微函数逼近离线强化学习的有效性能得到保证

使用不同 iable 函数类逼近的离线强化学习方法在实践中得到了广泛应用，它结合了各种具有非线性和非凸结构的模型，能够显著提高算法性能；本文分析了一种最悲观的算法，并证明这种方法的有效性，为探究强化学习与不同 iable 函数逼近方法提供了新的理论基础。

Oct, 2022

广义函数逼近下的最优保守离线强化学习增广朗格朗日方法

本文基于边缘化重要性取样 (RL) 提出了一种新的离线强化学习算法，以实现一般函数逼近和单策略可集中性的统计最优性，无需不确定性量化，并且通过应用增广 Lagrange 方法，保证某些占用有效性约束的近似满足。与以往力图通过行为规则化等方法引入额外保守性的算法不同，本文方法证明消除了这种需求，并将规则化器重新解释为 “占用有效性的执行者”，而不是 “保守性的促进者”。

Nov, 2022

线性函数逼近离线强化学习的基于实例的上界

本研究提出了一种基于 Bootstrapped and Constrained Pessimistic Value Iteration 算法的离线强化学习方法，该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下，该算法提供了一个快速率，即使在自适应采集的离线数据中，也能够实现绝对零的次优误差和 O（1 / K）的较低界限。

Nov, 2022

增加覆盖分布的离线强化学习

本文研究在函数逼近的情况下，从已有数据集合学习最优策略的离线强化学习问题。研究发现，本文提出的一种简单基于边缘重要采样的算法，可以在数据集合的覆盖率不完整、函数类弱可学习的条件下，通过附加覆盖分布的先验知识来实现理论上的有限次样本保证，同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。

May, 2023