基于特征 - 占据梯度上升的离线强化学习

May, 2024

基于特征 - 占据梯度上升的离线强化学习

Offline RL via Feature-Occupancy Gradient Ascent

Gergely Neu, Nneka Okolo

TL;DR我们研究了大规模无穷时间折扣马尔可夫决策过程中离线强化学习的问题，当奖励和转移模型在已知特征映射下可线性实现。我们提出了一种新的算法，通过在特征占据空间中进行一种梯度上升的形式来解决这个问题。我们证明了该算法在文献中已知的最不严格的数据覆盖假设下具有强大的计算和样本复杂度保证。此外，我们的方法易于实现，并且不需要关于覆盖比例（甚至上界）的先验知识，这使其成为迄今为止已知的最优算法。

Abstract

We study offline reinforcement learning in large infinite-horizon discounted Markov Decision Processes (MDPs) when the reward and transition models are linearly realizable under a known feature map. Starting from

offline reinforcement learning infinite-horizon discounted mdps linearly realizable feature occupancies sample complexity

发现论文，激发创造

低秩 MDP 中的密度特征强化学习

这篇论文研究了具有低秩转移矩阵的 MDPs，尤其是密度特征的样本高效学习，提出了一种算法来处理非勘探性数据的离线场景和逐层构建勘探数据分布的在线算法。

Feb, 2023

具有特征映射的折扣 MDP 的可证明高效强化学习

本论文介绍了一种基于特性映射的新算法，能够以线性的方式参数化转移核函数来处理强化学习中的大状态和行动空间，并且证明了该算法在一些强化学习的问题中，不需要访问生成模型就能取得多项式的最优后悔值，且总体上是近乎最优的。

Jun, 2020

具低秩结构的离线强化学习矩阵估计

本文提出了一种离线策略评估算法，该算法利用了隐含的低秩结构来估计未被覆盖的状态 - 动作对的值，同时提供了一个离线策略优化算法，且具有非渐近性能保证。

May, 2023

增加覆盖分布的离线强化学习

本文研究在函数逼近的情况下，从已有数据集合学习最优策略的离线强化学习问题。研究发现，本文提出的一种简单基于边缘重要采样的算法，可以在数据集合的覆盖率不完整、函数类弱可学习的条件下，通过附加覆盖分布的先验知识来实现理论上的有限次样本保证，同时揭示了学习过程中引入的归纳偏差在覆盖数量与先验知识之间的权衡效应。

May, 2023

低秩马尔可夫决策过程中的高效无模型探索

VoX 算法是首个可证明的高效的基于样本的搜索低阶马尔可夫决策过程算法，具备泛化功能近似且无需其他结构假设。该算法通过交替表示学习和策略优化，利用通用最优设计概念实现有效的最优设计计算。我们的分析简单而模块化，包括基于 Frank-Wolfe 方法的新型最优设计计算到策略优化的约简，以及对先前工作中某种特征嵌入的优化过的模块化分析。

Jul, 2023

离线约束强化学习的低秩 MDP 原始 - 对偶算法

该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法，该算法在折扣无限时间段设置中具有较低的样本复杂度，且支持离线约束强化学习设置。

Feb, 2024

线性 MDP 的离线原始 - 对偶强化学习

本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

May, 2023

离线分布鲁棒线性马尔科夫决策过程的样本复杂度

通过使用离线数据，基于分布健壮的线性马尔科夫决策过程，开发了一种悲观的模型算法，提供了一个具有样本效率的鲁棒性学习策略，以解决离线强化学习中模拟和实际环境之间的差异所带来的问题。

Mar, 2024

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022

具可实现性和单策略集中性的离线强化学习

本文研究除去 Bellman-completeness 和 all-policy concentrability 强假设是否可以在两个因素上弱化假设，结果证明基于 MDPs 的原始 - 对偶算法可以实现针对单策略可集中性的多项式样本复杂度，提供了不同假设的替代分析，为离线 RL 的原始 - 对偶算法提供新方法。

Feb, 2022