解决贝尔曼方程的核损失

May, 2019

A Kernel Loss for Solving the Bellman Equation

Yihao Feng, Lihong Li, Qiang Liu

TL;DR本文提出了一种新的损失函数，可以使用标准的梯度下降优化，避免了以往算法中需要双样本的问题，并可以与深度学习等函数类相结合，且在多个基准测试中表现可靠和有效。

Abstract

value function learning plays a central role in many state-of-the-art reinforcement-learning algorithms. Many popular algorithms like Q-learning do not optimize any objective function, but are fixed-point iterati

value function learning reinforcement-learning convergence guarantees loss function gradient-based methods

发现论文，激发创造

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

SBEED：非线性函数逼近的收敛强化学习

本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题，并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题，其中可以使用任何可微分类函数。我们提供了通用非线性函数逼近的第一个收敛保证，并分析了算法的样本复杂度。经验上，我们的算法在几个基准控制问题中与最先进的基准线相比表现得非常好。

Dec, 2017

使用线性函数逼近的 $Q$- 学习收敛的多贝尔曼算子

我们研究了具有线性函数逼近的 $Q$- 学习的收敛性。我们的关键贡献是引入了一个新颖的多 Bellman 算子，它扩展了传统的 Bellman 算子。通过探索该算子的属性，我们确定了投影的多 Bellman 算子变得收敛的条件，与 Bellman 算子相比，提供了改进的定点保证。为了利用这些认识，我们提出了具有线性函数逼近的多 $Q$- 学习算法。我们证明了该算法收敛到投影的多 Bellman 算子的稳定点，能够得到任意精度的解。最后，我们通过将其应用于众所周知的环境来验证我们的方法，展示了我们研究结果的有效性和适用性。

Sep, 2023

强化学习中基于离线策略的状态值估计的广义投影贝尔曼误差

本文介绍了一种基于非线性机器学习的强化学习算法，该算法使用一种新的广义均方投影贝尔曼误差作为目标函数，可提高算法的稳定性和性能。

Apr, 2021

基于核的 Q-Learning 的样本复杂度

本文论述了基于核心回归的 Q 学习在存在生成模型时的采样复杂度，提出了一种非参数 Q 学习算法，其样本复杂度优化到 ε 和核心复杂度的阶数，这是针对这种普遍模型的首个具有有限样本复杂度的结果。

Feb, 2023

对称 Q 学习：减小在线强化学习中贝尔曼误差的偏斜度

深度强化学习中，通过使用对称 Q 学习方法，将来自零均值分布的合成噪声添加到目标值中，从而生成高斯误差分布，以改善价值函数训练中的偏斜错误分布问题，并提高现有的强化学习方法在连续控制任务中的样本效率。

Mar, 2024

基于梯度的价值估计的高效实现

本文研究了值估计的梯度方法在强化学习中速度较慢的原因，提出了一种基于 Gauss-Newton 方向的低复杂度非批量化近端方法，并介绍了主要算法 RANS 及其在经典问题中的表现。

Jan, 2023

线性函数逼近下离线强化学习中固有贝尔曼误差的作用

在这篇论文中，我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差，这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法，可以在数据集的单策略覆盖条件下成功，输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下（称为线性贝尔曼完备性），我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下，我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外，我们证明了对于任何算法，我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比，在那些设置中，通常可以获得与建模误差线性退化的性能。

Jun, 2024

学习双人混合马尔可夫博弈：核函数逼近和相关均衡

本论文提出了一种基于优化原则的在线学习算法，通过在函数空间中最小化对偶差来寻找 Nash 均衡点，在马尔科夫博弈中进行非线性函数逼近，解决了高维函数空间中的探索问题，并扩展了几种算法，其中一个可以实现更紧的遗憾上界，另一个可以应用于神经网络函数逼近的模型错误说明。

Aug, 2022

Koopman 辅助强化学习

基于 Koopman 算子和马尔可夫决策过程（MDPs）的连接，发展了两种新的强化学习算法，以解决高维状态和非线性问题，构建了 “Koopman tensor” 来估计最优价值函数，通过 Koopman 张量对 Bellman 框架进行了转换，形成软值迭代和软演员 - 评论家（SAC）算法。

Mar, 2024