使用线性函数逼近的 $Q$- 学习收敛的多贝尔曼算子

Sep, 2023

使用线性函数逼近的 $Q$- 学习收敛的多贝尔曼算子

Multi-Bellman operator for convergence of $Q$-learning with linear function approximation

Diogo S. Carvalho, Pedro A. Santos, Francisco S. Melo

TL;DR我们研究了具有线性函数逼近的 $Q$- 学习的收敛性。我们的关键贡献是引入了一个新颖的多 Bellman 算子，它扩展了传统的 Bellman 算子。通过探索该算子的属性，我们确定了投影的多 Bellman 算子变得收敛的条件，与 Bellman 算子相比，提供了改进的定点保证。为了利用这些认识，我们提出了具有线性函数逼近的多 $Q$- 学习算法。我们证明了该算法收敛到投影的多 Bellman 算子的稳定点，能够得到任意精度的解。最后，我们通过将其应用于众所周知的环境来验证我们的方法，展示了我们研究结果的有效性和适用性。

Abstract

We study the convergence of $Q$-learning with linear function approximation. Our key contribution is the introduction of a novel multi-bellman operator that extends the traditional Bellman operator. By exploring

$q$-learning linear function approximation multi-bellman operator contractive multi $q$-learning algorithm

发现论文，激发创造

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

SBEED：非线性函数逼近的收敛强化学习

本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题，并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题，其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证，并分析了算法的样本复杂度。经验上，我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。

Dec, 2017

解决贝尔曼方程的核损失

本文提出了一种新的损失函数，可以使用标准的梯度下降优化，避免了以往算法中需要双样本的问题，并可以与深度学习等函数类相结合，且在多个基准测试中表现可靠和有效。

May, 2019

再探 Softmax Bellman Operator: 新的益处与新的视角

本文研究了在强化学习领域中，softmax 对值函数本身的影响，表明其虽然与 Bellman operator 的收敛性质有冲突，但在值函数近似的情况下，结合深度 Q 学习可以产生更出色的 Q-function 性能，并可减少 overestimation error。

Dec, 2018

Q-learning 设计与乐观性的稳定性

该论文介绍了 Q-learning 在强化学习工具中的重要性，提供了随机逼近和 Q-learning 的教程，并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了 Q-learning 中线性函数逼近的稳定性问题，以及设计了一种近似牛顿 - 拉普森流动的算法。

Jul, 2023

迭代 Q 网络：超越一步 Bellman 算子

值基于强化学习的研究论文，介绍了一种新方法 (iterated Q-Networks)，通过多次迭代 Bellman 算子来学习一系列 Q 函数逼近，理论上可行，并可无缝地应用于基于价值和演员 - 评论家方法。在 Atari 2600 游戏和连续控制 MuJoCo 环境中，通过实验证明了其优势。

Mar, 2024

随机环境中的凸 Q 学习：扩展版

引入了对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的第一种形式化。该论文主要贡献包括：对该凸松弛性质的属性进行了鉴定，提供了一种近似凸程序的直接模型无关方法，证明了所提出算法的收敛性，并介绍了计算速率。同时，该方法可以推广到多种性能指标，并通过经典库存控制问题进行了实证验证。

Sep, 2023

线性函数逼近下离线强化学习中固有贝尔曼误差的作用

在这篇论文中，我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差，这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法，可以在数据集的单策略覆盖条件下成功，输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下（称为线性贝尔曼完备性），我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下，我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外，我们证明了对于任何算法，我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比，在那些设置中，通常可以获得与建模误差线性退化的性能。

Jun, 2024

线性贝尔曼完备性足以实现少动作高效在线强化学习

这篇研究论文介绍了线性贝尔曼完备性下强化学习中的值迭代算法，并提供了首个多项式时间复杂度的算法。

Jun, 2024

批量强化学习中的 Q * 逼近算法：一个理论比较

本文涵盖了两种用于近似 Q 星算法在批量强化学习中表现的性能保证，并与传统的迭代方法进行了比较，证明了这些方法可以通过估计贝尔曼误差，仅依靠批数据和输出静态策略的算法，享受与任务无关的线性迭代时间性质。其中一种算法使用了新颖而明确的重要性加权校正，以克服贝尔曼误差估计中的 “双重抽样” 难题，并且没有使用任何平方损失。我们的分析揭示了与传统算法相比，其不同的特点和潜在优势。

Mar, 2020