强化学习中使用的近似本地空间的收敛速率

Sep, 2023

强化学习中使用的近似本地空间的收敛速率

Rates of Convergence in Certain Native Spaces of Approximations used in Reinforcement Learning

Ali Bouland, Shengyuan Niu, Sai Tej Paruchuri, Andrew Kurdila, John Burns...

TL;DR该论文研究了出现在再生核希尔伯特空间 (RKHS) H (Ω) 的一组值函数逼近的收敛速度。通过在特定类别的本地空间中建立一个最优控制问题，得出了政策迭代中出现的离线逼近的强收敛速度。利用有限维逼近空间 H_N 的幂函数 Pwr_{H,N}，导出了值函数逼近误差的显式上界，这些上界具有几何性质，对于值函数逼近的收敛性有一定的改进。

Abstract

This paper studies convergence rates for some value function approximations that arise in a collection of reproducing kernel hilbert spaces

convergence rates value function approximations reproducing kernel hilbert spaces optimal control problem native spaces

发现论文，激发创造

非正则化在线学习算法的收敛性

本文研究了无正则化的 RKHS 在线梯度下降算法的收敛性和收敛速率条件，探讨了平均迭代和最后一次迭代的过度泛化误差和收敛速率，首次提出了无强凸性的 online gradient descent 的高概率收敛速率。

Aug, 2017

在线学习作为正则化路径的随机逼近

本文介绍一种在线学习算法，该算法是收敛于再生核希尔伯特空间（RKHS）中的回归函数的正则化路径的顺序随机逼近。通过小心选择增益或步长序列，我们展示了可以生产出批量学习的最佳已知强收敛速率，并给出了弱收敛速率，其在文献中达到了最小化和个人较低速率的最优水平，并利用 Hilbert 空间中鞍点型不等式为鞍点型型不等式的马尔可夫过程推导出几乎肯定的收敛。通过类似于批量学习设置的偏差 - 方差分解，我们证明偏差包括沿正则化路径的逼近误差和漂移误差，这些误差显现了相同的收敛速率，而方差则来自样本误差，分析为反向鞍点型差分序列，上述速率通过偏差和方差之间的最佳折衷得到。

Mar, 2011

近似比集中更有效？平滑径向核推理的近似观点

探讨了正定核及其相关重现核希尔伯特空间的逼近性质，包括核算子和矩阵的特征值衰减、特征函数 / 特征向量的性质、核空间中函数的 “傅里叶” 系数以及核的拟合能力等，并给出了限制在离散数据点上的重现核希尔伯特空间球体的胖打散维度的明确界限，讨论了正定核的容量限制及其对梯度下降等算法的影响。

Jan, 2018

学习双人混合马尔可夫博弈：核函数逼近和相关均衡

本论文提出了一种基于优化原则的在线学习算法，通过在函数空间中最小化对偶差来寻找 Nash 均衡点，在马尔科夫博弈中进行非线性函数逼近，解决了高维函数空间中的探索问题，并扩展了几种算法，其中一个可以实现更紧的遗憾上界，另一个可以应用于神经网络函数逼近的模型错误说明。

Aug, 2022

核积分规则在错误规格设置中的收敛保证

本文探讨了一种基于核的数值积分方法，向黑匣子函数提供单一的代替方法，同时证明该方法的有效性不受核空间假设的影响，只要函数的光滑度可以通过 RKHS 或 Sobolev 空间的幂次表示甚至在光滑度假设不成立的情况下也具有收敛性。

May, 2016

具有顺序最优遗憾界限的核化强化学习

针对使用核回归时的强化学习问题，我们提出了一种乐观性的改进最小二乘法值迭代方法，我们证明了其在一般情况下具有一阶最优遗憾保证，其结果比现有技术有显着的多项式改进。

Jun, 2023

非平稳数据下再生核希尔伯特空间在线正则化统计学习的收敛条件

研究了具有依赖性和非平稳在线数据流的递归正则化学习算法在复制核希尔伯特空间中的收敛性。通过研究随机差分方程在核希尔伯特空间中的均方渐近稳定性和随机 Tikhonov 正则化路径的概念，证明了算法输出与正则化路径一致，并且满足一定条件下算法输出与未知函数一致。对于独立和非同分布的数据流情况，通过研究边缘概率测度和定期时间段的平均测度，证明了均方一致性的实现。

Apr, 2024

具备一般损失函数的非正则化在线学习算法

本文考虑在再生核希尔伯特空间中的非规则化在线学习算法，给出了分类的显式收敛速率以及对于一般损失函数的非规则化成对学习算法的首次收敛性证明和收敛速率。

Mar, 2015

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022

在连续状态 - 动作空间中驯服 “数据饥饿” 的强化学习稳定性

我们介绍了一种分析连续状态 - 动作空间强化学习的新框架，并将其用于在离线和在线设置中证明收敛速度快。我们的分析突显了两个关键的稳定性属性，涉及价值函数和 / 或策略变化如何影响贝尔曼算子和占据测度。我们认为这些属性在许多连续状态 - 动作马尔科夫决策过程中得到满足，并展示了这些属性在使用线性函数逼近方法时如何自然产生。我们的分析为离线和在线强化学习中悲观主义和乐观主义的作用提供了新的视角，并突出了离线强化学习与迁移学习之间的联系。

Jan, 2024