具可证明效率的基于线性值迭代的奖励非相关导航

Aug, 2020

具可证明效率的基于线性值迭代的奖励非相关导航

Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration

Andrea Zanette, Alessandro Lazaric, Mykel J. Kochenderfer, Emma Brunskill

TL;DR本文提出了一种基于 Bellman 误差的最小平方价值迭代算法的线性函数逼近学习方法，通过足够的探索可以提供强有力的 PAC 保证，并且采用无奖赏情况下计算可行的算法，通过纯探索收集样本可以得到相同级别的 PAC 保证。

Abstract

There has been growing progress on theoretical analyses for provably efficient learning in mdps with linear function approximation, but much of the existing work has made strong assumptions to enable

mdps linear function approximation pac guarantees value function exploration

发现论文，激发创造

有界最优探索在 MDP 中的应用

本文提出简单算法来解决在短期内实现理论驱动的探索方法和实际需求之间的纠葛，并通过理论分析和数字示例展示所提出的放宽条件的好处，同时维持任何时候的误差边界和平均损失边界，并且适用于贝叶斯和非贝叶斯方法。

Apr, 2016

使用线性函数逼近学习无限时间平均回报马尔可夫决策过程

开发多种学习用于 Markov Decision Processes 的无限时间平均奖励设置和线性函数逼近的算法，使用乐观原则和假设 MDP 具有线性结构，提出具有优化的计算效率的算法，并展开了详细的分析，改进了现有最佳结果。

Jul, 2020

基于核和神经函数逼近的无奖励强化学习：单智能体马尔可夫决策过程和马尔可夫博弈

该研究针对强化学习中探索困境的问题，研究了无奖励的强化学习问题，提出了一种基于内核和神经函数逼近的乐观 value 迭代探索算法，证明了该方法可以在提供任意外界奖励的情况下，实现产生准最优策略或近似 Nash 均衡的复杂性为 O (1/epsilon^2) 的采样复杂度，是首个可以证明有效的应用内核和神经函数逼近的无奖励强化学习算法。

Oct, 2021

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

学习具有低基本 Bellman 误差的近最优策略

研究在近似线性行动价值函数的情况下，基于低内在 Bellman 误差的探索问题，给出了一种算法，其高概率的遗憾上界与特征维数和 Bellman 误差有关，同时将其与先前的工作进行了比较，在线性 MDP 的情况下，证明了这个算法具有统计效率。

Feb, 2020

基于线性函数逼近的无奖励强化学习中的近最优部署效率

研究如何在施加 “无回报探索” 的情况下，使用线性函数逼近在提高效率时落地实施策略，最后我们提出了一种新算法，只需在 H 次部署中收集最多 O (~d²H⁵/ε²) 的轨迹，在不同的奖励函数设定下，即可找到一个 ε- 最优策略，并且在样本复杂度和 d 依赖性中同时达到最优的部署复杂度。

Oct, 2022

使用线性函数逼近的无奖励模型强化学习

本文研究线性函数逼近的无奖励强化学习与马尔可夫决策过程，并提出了一种新算法 UCRL-RFE，其中使用线性函数对状态、动作和下一个状态进行特征映射，能够在探索阶段最多采样 $\tilde {\mathcal {O}}(H^5d^2\epsilon^{-2})$ 周期，用于构建奖励函数并实现任意奖励下的 $\epsilon$- 最优策略。

Oct, 2021

基于线性贝尔曼完备性的计算高效强化学习

我们研究了计算和统计效率高的线性 Bellman 完整设置下的强化学习算法，该设置使用线性函数逼近来捕捉值函数，并统一了线性马尔可夫决策过程和线性二次调节器等现有模型。

Jun, 2024

低秩马尔可夫决策过程中的高效无模型探索

VoX 算法是首个可证明的高效的基于样本的搜索低阶马尔可夫决策过程算法，具备泛化功能近似且无需其他结构假设。该算法通过交替表示学习和策略优化，利用通用最优设计概念实现有效的最优设计计算。我们的分析简单而模块化，包括基于 Frank-Wolfe 方法的新型最优设计计算到策略优化的约简，以及对先前工作中某种特征嵌入的优化过的模块化分析。

Jul, 2023