SBEED：非线性函数逼近的收敛强化学习

ICMLDec, 2017

SBEED：非线性函数逼近的收敛强化学习

SBEED: Convergent Reinforcement Learning with Nonlinear Function Approximation

Bo Dai, Albert Shaw, Lihong Li, Lin Xiao, Niao He...

TL;DR本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题，并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题，其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证，并分析了算法的样本复杂度。经验上，我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。

Abstract

When function approximation is used, solving the bellman optimality equation with stability guarantees has remained a major open problem in reinforcement learning for decades. The fundamental difficulty is that t

function approximation bellman optimality equation reinforcement learning optimization problem sample complexity

发现论文，激发创造

平滑贝尔曼误差嵌入的尖锐分析

研究了使用 Smoothed Bellman Error Embedding 算法在 batch-mode 强化学习中的理论行为，并基于近期研究的工作，证明了该算法在使用的函数类表示能力和紧密的分布转移概念下，可以实现近乎最优的性能保证。

Jul, 2020

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

使用线性函数逼近的 $Q$- 学习收敛的多贝尔曼算子

我们研究了具有线性函数逼近的 $Q$- 学习的收敛性。我们的关键贡献是引入了一个新颖的多 Bellman 算子，它扩展了传统的 Bellman 算子。通过探索该算子的属性，我们确定了投影的多 Bellman 算子变得收敛的条件，与 Bellman 算子相比，提供了改进的定点保证。为了利用这些认识，我们提出了具有线性函数逼近的多 $Q$- 学习算法。我们证明了该算法收敛到投影的多 Bellman 算子的稳定点，能够得到任意精度的解。最后，我们通过将其应用于众所周知的环境来验证我们的方法，展示了我们研究结果的有效性和适用性。

Sep, 2023

一般函数近似下的非平稳强化学习

本论文针对非平稳 MDP 问题，提出了一种复杂度指标 Dynamic Bellman Eluder 维度和一种新的置信区间算法 SW-OPEA，通过对非平稳线性和表格 MDPs 的示例进行演示，表明该算法在小变化预算场景下性能优于现有的 UCB 类型算法，同时证明了当变化预算不显著大时，SW-OPEA 算法是可以有效地执行。

Jun, 2023

解决贝尔曼方程的核损失

本文提出了一种新的损失函数，可以使用标准的梯度下降优化，避免了以往算法中需要双样本的问题，并可以与深度学习等函数类相结合，且在多个基准测试中表现可靠和有效。

May, 2019

强化学习中基于离线策略的状态值估计的广义投影贝尔曼误差

本文介绍了一种基于非线性机器学习的强化学习算法，该算法使用一种新的广义均方投影贝尔曼误差作为目标函数，可提高算法的稳定性和性能。

Apr, 2021

安全强化学习的收敛策略优化

本研究探讨了安全强化学习问题与非线性函数逼近的关系，将策略优化作为同时考虑目标与限制的非凸问题，通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题，证明了对这些问题求解，其解会收敛于原问题的稳定点；进一步将该算法应用于优化控制和多智能体安全强化学习问题，扩展了理论研究的范围。

Oct, 2019

线性函数逼近下离线强化学习中固有贝尔曼误差的作用

在这篇论文中，我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差，这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法，可以在数据集的单策略覆盖条件下成功，输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下（称为线性贝尔曼完备性），我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下，我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外，我们证明了对于任何算法，我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比，在那些设置中，通常可以获得与建模误差线性退化的性能。

Jun, 2024

Q-learning 设计与乐观性的稳定性

该论文介绍了 Q-learning 在强化学习工具中的重要性，提供了随机逼近和 Q-learning 的教程，并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了 Q-learning 中线性函数逼近的稳定性问题，以及设计了一种近似牛顿 - 拉普森流动的算法。

Jul, 2023

有限维谱动力学嵌入实现随机非线性控制

使用具备无穷维特征的 Spectral Dynamics Embedding 结合实际的有限维截断近似来控制非线性随机系统的 Spectral Dynamics Embedding Control（SDEC）算法，探索了其截断近似和有限采样的近似所引起的误差，对摆锤问题进行了实证测试。

Apr, 2023