基于核和神经函数逼近的无奖励强化学习：单智能体马尔可夫决策过程和马尔可夫博弈

ICMLOct, 2021

基于核和神经函数逼近的无奖励强化学习：单智能体马尔可夫决策过程和马尔可夫博弈

On Reward-Free RL with Kernel and Neural Function Approximations: Single-Agent MDP and Markov Game

Shuang Qiu, Jieping Ye, Zhaoran Wang, Zhuoran Yang

TL;DR该研究针对强化学习中探索困境的问题，研究了无奖励的强化学习问题，提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法，证明了该方法可以在提供任意外界奖励的情况下，实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度，是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。

Abstract

To achieve sample efficiency in reinforcement learning (RL), it necessitates efficiently exploring the underlying environment. Under the offline setting, addressing the →

reinforcement learning sample efficiency exploration function approximation offline dataset

发现论文，激发创造

强化学习的无奖励探索

该论文提出了一个新的 “无奖励强化学习” 框架，通过在探索阶段从 MDP 采集轨迹来找到探索策略，并使用黑盒近似规划器计算接近最优的策略。

Feb, 2020

使用线性函数逼近进行无奖励强化学习

在不需要奖励函数的情况下，在批量强化学习和多个奖励函数的领域中，代理人可以收集数据，然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习，并得出一个算法的样本复杂度是多项式时间，与状态和动作的数量无关。

Jun, 2020

使用线性函数逼近的无奖励模型强化学习

本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程，并提出了一种新算法 UCRL-RFE，其中使用线性函数对状态、动作和下一个状态进行特征映射，能够在探索阶段最多采样 $\tilde {\mathcal {O}}(H^5d^2\epsilon^{-2})$ 周期，用于构建奖励函数并实现任意奖励下的 $\epsilon$- 最优策略。

Oct, 2021

线性函数逼近下的近似极小极大离线强化学习：单智能体 MDP 和马尔科夫博弈

本文提出了一种基于悲观主义的离线线性 MDP 算法，核心是使用参考函数进行不确定性分解并利用理论分析证明，该算法可以匹配性能下限并且该技术可以扩展到两人零和马尔可夫博弈，验证了算法的极小极大最优性。这是目前关于使用线性函数逼近的单智能体 MDPs 和 MGs 的第一个有效的极小极大最优算法。

May, 2022

基于线性函数逼近的无奖励强化学习中的近最优部署效率

研究如何在施加 “无回报探索” 的情况下，使用线性函数逼近在提高效率时落地实施策略，最后我们提出了一种新算法，只需在 H 次部署中收集最多 O (~d²H⁵/ε²) 的轨迹，在不同的奖励函数设定下，即可找到一个 ε- 最优策略，并且在样本复杂度和 d 依赖性中同时达到最优的部署复杂度。

Oct, 2022

低秩 MDPs 下无奖励强化学习的样本复杂度改进

本文研究了低秩 MDP 模型下无奖励强化学习及其算法。首先推导出该问题的最低样本复杂度下限，并提出了 RAFFLE 算法，通过无奖励探索可以在样本复杂度显著改善下找到 epsilon - 最优策略和 epsilon - 准确的系统识别。最后，提出了 RAFFLE 的规划算法，可学习到近乎准确的表示，是该环境下首个具有表示学习保证的算法。

Mar, 2023

线性 MDP 的离线原始 - 对偶强化学习

本文提出了一种基于线性规划的原对偶优化方法，该方法针对有限时间或使用表格的强 RL 范式有较强的理论保证，采用函数近似和最小数据集假设解决了无限时间范式的算法问题，并在更具挑战性的平均回报设置下进行了分析。

May, 2023

低秩马尔可夫决策过程中的高效无模型探索

VoX 算法是首个可证明的高效的基于样本的搜索低阶马尔可夫决策过程算法，具备泛化功能近似且无需其他结构假设。该算法通过交替表示学习和策略优化，利用通用最优设计概念实现有效的最优设计计算。我们的分析简单而模块化，包括基于 Frank-Wolfe 方法的新型最优设计计算到策略优化的约简，以及对先前工作中某种特征嵌入的优化过的模块化分析。

Jul, 2023

离线约束强化学习的低秩 MDP 原始 - 对偶算法

该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法，该算法在折扣无限时间段设置中具有较低的样本复杂度，且支持离线约束强化学习设置。

Feb, 2024

关于非线性强化学习无奖探索的统计效率

本文研究对一般非线性函数逼近的无奖励强化学习，提出了 RFOLIVE 算法以进行样本有效的非线性函数逼近的无奖励探索，并在低秩 MDPs 等假设下给出了正面与负面的结果。

Jun, 2022