具可实现性和单策略集中性的离线强化学习

Feb, 2022

具可实现性和单策略集中性的离线强化学习

Offline Reinforcement Learning with Realizability and Single-policy Concentrability

Wenhao Zhan, Baihe Huang, Audrey Huang, Nan Jiang, Jason D. Lee

TL;DR本文研究除去 Bellman-completeness 和 all-policy concentrability 强假设是否可以在两个因素上弱化假设，结果证明基于 MDPs 的原始 - 对偶算法可以实现针对单策略可集中性的多项式样本复杂度，提供了不同假设的替代分析，为离线 RL 的原始 - 对偶算法提供新方法。

Abstract

sample-efficiency guarantees for offline reinforcement learning (RL) often rely on strong assumptions on both the function classes (e.g.,

sample-efficiency offline reinforcement learning function classes data coverage mdps

发现论文，激发创造

基于价值和密度比实现的离线强化学习：间隙的威力

本研究针对离线强化学习中的样本利用效率问题，提出了基于地位结构的重要性采样（MIS）的悲观算法，并利用较弱的函数逼近前提给出保证。

Mar, 2022

离线强化学习：状态聚合和轨迹数据的作用

离线强化学习中，对于具有价值函数的可实现性但不具备 Bellman 完备性的问题，我们提供了关于离线策略评估任务的负回答，并揭示了聚合马尔可夫转移模型中的集中度系数在样本复杂性中的重要性，即使原始 MDP 中的集中度系数较小且离线数据可接受，聚合的集中度系数仍可能呈指数增长，而轨迹数据相对于可接受的数据并没有额外的好处。

Mar, 2024

增加覆盖分布的离线强化学习

本文研究在函数逼近的情况下，从已有数据集合学习最优策略的离线强化学习问题。研究发现，本文提出的一种简单基于边缘重要采样的算法，可以在数据集合的覆盖率不完整、函数类弱可学习的条件下，通过附加覆盖分布的先验知识来实现理论上的有限次样本保证，同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。

May, 2023

离线约束强化学习的低秩 MDP 原始 - 对偶算法

该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法，该算法在折扣无限时间段设置中具有较低的样本复杂度，且支持离线约束强化学习设置。

Feb, 2024

离线强化学习：值函数逼近的基本限制

本研究针对离线强化学习问题，研究了在实践中越来越受到关注的离线值函数逼近方法，发现其需要有限制的覆盖条件或超出监督学习的表示条件，并提出了所谓的过覆盖现象，阐述了在线和离线强化学习之间的巨大分离性，最终得出任何算法都需要多项式大小的样本复杂度来学习非平凡策略的结论。

Nov, 2021

在线强化学习中覆盖率的作用

该论文研究覆盖条件在离线强化学习中的作用，并通过建立覆盖条件与在线强化学习之间的联系，证明存在具有良好覆盖性的数据分布可以使在线 RL 更具样本效率。此外，提出了用于衡量覆盖性的新型复杂度量和弱覆盖性概念的不足。

Oct, 2022

在线强化学习中一般覆盖条件在有效函数逼近中的可证明优势

本研究聚焦于在线强化学习中，使用一定的覆盖条件能够确保样本高效，通过挖掘更多的覆盖条件，研究了其在提高样本效率方面的潜力和效用，进一步证明使用覆盖条件能够实现在线强化学习的高效性，包括 $L^p$ 集中性方差实现、密度比实现、偏差 / 休息覆盖条件的权衡以及基于探索性离线数据使用统计和计算有效保证等。

Apr, 2023

模型基节流离线强化学习的样本复杂度研究

本文提出了一种无需进一步探索的离线强化学习方法，通过精心设计的模型实现了最优的样本复杂度，适合处理数据分布转移和数据覆盖范围受限的情况。

Apr, 2022

基于通用函数逼近和单策略聚合的可证明高效离线目标条件下强化学习

本文提出了一种新的基于离线数据的强化学习算法，该算法拥有通用函数逼近能力、单策略集中性和统计效率，并且只需要极少的假设前提和计算稳定性。

Feb, 2023

线性 MDP 的离线原始 - 对偶强化学习

本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

May, 2023