基于线性贝尔曼完备性的计算高效强化学习

Jun, 2024

基于线性贝尔曼完备性的计算高效强化学习

Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics

Runzhe Wu, Ayush Sekhari, Akshay Krishnamurthy, Wen Sun

TL;DR我们研究了计算和统计效率高的线性 Bellman 完整设置下的强化学习算法，该设置使用线性函数逼近来捕捉值函数，并统一了线性马尔可夫决策过程和线性二次调节器等现有模型。

Abstract

We study computationally and statistically efficient reinforcement learning algorithms for the linear bellman complete setting, a setting that uses linear function approximation to capture →

reinforcement learning linear bellman complete value functions linear quadratic regulators random initial states

发现论文，激发创造

线性贝尔曼完备性足以实现少动作高效在线强化学习

这篇研究论文介绍了线性贝尔曼完备性下强化学习中的值迭代算法，并提供了首个多项式时间复杂度的算法。

Jun, 2024

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

线性混合 MDP 的高效无界强化学习算法

该研究论文提出了第一个计算高效、无横向界限算法，其中采用了加权最小二乘法，以用于未知状态转移动态的估算，并能够应用于异构线性 bandits 中，达到了比已知算法更优的效果。

May, 2022

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022

分布鲁棒离轨强化学习：通过线性函数逼近的证明效率

我们研究在源域进行训练并在不同的目标域中部署的离线动态强化学习，通过在线分布鲁棒的马尔可夫决策过程来解决此问题，我们的学习算法在与源域交互时寻求在源域转移核不确定性集合中最坏动态下的最优性能。我们设计了一个使用总变差距离的 $d$- 长方形不确定性集合，通过去除额外的非线性性和绕过误差传播来解决 DRMDPs 的非线性问题，并引入了 DR-LSVI-UCB 算法，这是第一个在离线动态强化学习中具有函数逼近的可验证高效性的在线 DRMDP 算法，并建立了一个与状态和动作空间大小无关的多项式次优性界限。我们的工作是对在线 DRMDPs 与线性函数逼近的可验证高效性的深入理解的第一步。最后，我们通过不同的数值实验验证了 DR-LSVI-UCB 的性能和鲁棒性。

Feb, 2024

具可证明效率的基于线性值迭代的奖励非相关导航

本文提出了一种基于 Bellman 误差的最小平方价值迭代算法的线性函数逼近学习方法，通过足够的探索可以提供强有力的 PAC 保证，并且采用无奖赏情况下计算可行的算法，通过纯探索收集样本可以得到相同级别的 PAC 保证。

Aug, 2020

可证明高效的部分可观测动态系统强化学习

通过提出一种新的基于双线性 Actor-Critic 框架的学习算法，该算法可以对部分可观察的动态系统进行部分可观察的强化学习，并且在特定的情形下（如欠完备的可观察性模型）具有较高的性能表现。

Jun, 2022

线性函数逼近下离线强化学习中固有贝尔曼误差的作用

在这篇论文中，我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差，这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法，可以在数据集的单策略覆盖条件下成功，输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下（称为线性贝尔曼完备性），我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下，我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外，我们证明了对于任何算法，我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比，在那些设置中，通常可以获得与建模误差线性退化的性能。

Jun, 2024

无需贝尔曼完备性：基于模型的回归条件监督学习的轨迹拼接方法

在本文中，我们展示了基于回报条件的监督学习（RCSL）的离策略学习技术如何在具有放松了的 Bellman 完备性条件下收敛，使用两层多层感知机作为函数逼近器时实现了与动态规划方法相媲美的性能，并提出了 MBRCSL 框架，通过利用学习的动力学模型和前向采样来实现轨迹拼接，从而避免了所有动态规划算法中困扰的 Bellman 完备性需求。

Oct, 2023