线性函数逼近SARSA算法的收敛性：随机时限情况

Jun, 2023

线性函数逼近SARSA算法的收敛性：随机时限情况

Convergence of SARSA with linear function approximation: The random horizon case

Lina Palmborg

TL;DR本研究探究了强化学习算法SARSA与线性函数逼近的收敛性问题，将算法应用于随机时长的马尔可夫决策问题中，证明了当行为策略为ε-soft且与线性函数逼近的权重向量Lipschitz连续时，该算法随机收敛的概率为1。

Abstract

The reinforcement learning algorithm sarsa combined with linear function approximation has been shown to converge for infinite horizon dis

发现论文，激发创造

动态策略编程

本文提出了一种新的策略迭代方法——动态策略规划（DPP），用于在无限时间马尔可夫决策过程（MDP）中估计最优策略，证明了DPP在估计和近似误差存在的情况下的有限迭代和渐进l∞-norm性能损失边界，通过数值实验表明，与现有的强化学习方法相比，在所有情况下，基于DPP的算法表现出更好的性能。

Apr, 2010

基于线性函数逼近的SARSA有限样本分析

本文研究了在非独立同分布数据下具有线性函数逼近的 SARSA 算法，并开发了一种新的技术来显式表征随着时间变化的马尔科夫转移核的一类随机逼近过程的随机偏差，从而提供了基于有限样本的 SARSA 算法的均方误差有限样本分析以及配适的 SARSA 算法，后者包括原始 SARSA 算法及其变体，提供了比逐步更新策略迭代更高效的泛化框架。

Feb, 2019

关于策略梯度方法的理论：最优性、逼近和分布偏移

本文研究了策略梯度方法在强化学习中的应用，提供了在马尔可夫决策过程中对其计算、逼近和样本量特征的可证特征化，并探究了参数化策略和表格化策略参数化的差异，其中一个主要贡献是提供了平均情况下的逼近保证，通过与分布转变下的监督学习形式上的联系来避免了最坏情况下对状态空间大小的显式依赖。

Aug, 2019

使用线性函数逼近学习无限时间平均回报马尔可夫决策过程

开发多种学习用于Markov Decision Processes的无限时间平均奖励设置和线性函数逼近的算法，使用乐观原则和假设MDP具有线性结构，提出具有优化的计算效率的算法，并展开了详细的分析，改进了现有最佳结果。

Jul, 2020

使用线性函数逼近的无限时域离线强化学习：维度诅咒与算法

本文研究线性函数逼近下无穷时域离线强化学习的策略评估的样本复杂性以及分布漂移假设下的算法，提出了算法的样本复杂性的下界，以及样本复杂性的上界。

Mar, 2021

线性函数逼近下的最小最大优化强化学习

研究使用线性函数近似的强化学习，其中转移概率和奖励函数是关于特征映射phi(s,a)的线性函数。提出了新的计算高效算法LSVI-UCB+，其在Bernstein类型的探索奖励的帮助下，具有常数估计的L2误差，并且特别适用于情节不同整体线性马尔可夫决策过程，证明了LSVI-UCB+的统计结果并且在理论上是最优秀的。

Jun, 2022

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022

可证明高效的无限时间平均回报线性MDP的强化学习

设计了一个计算有效的算法，通过将平均奖励设定近似为折扣设定，并且在适当调整贴现因子时，通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程(MDP)的 O(sqrt(T)) 的遗憾。

May, 2024

无限时间平均回报马尔科夫决策过程的强化学习与多项式逻辑函数逼近

我们研究了具有非线性函数逼近的基于模型的强化学习，其中底层马尔可夫决策过程（MDP）的转移函数由一个多项式逻辑模型给出。本文针对无限时间平均奖励设定，提出了两种算法。第一个算法UCRL2-MNL适用于通信MDP类，并实现了一种具有(近似)Ο(dD√T)的遗憾保证，其中d是特征映射的维数，D是底层MDP的直径，T是时间界。第二个算法OVIFH-MNL在计算上更有效，并适用于更一般的弱通信MDP类，我们展示了其具有(近似)Ο(d^(2/5)sp(v^*)T^(4/5))的遗憾保证，其中sp(v^*)是相关最优偏差函数的散度。我们还证明了对于最大直径为D的可通信MDP，学习具有MNL转移的复杂度的Ω(d√(DT))的下界。此外，我们对于具有MNL函数逼近的H-时间界的情况，展示了Ω(dH^(3/2)√K)的遗憾下界，在这里K是序列的数量，该下界优于有限时间界设定的已知最佳下界。

Jun, 2024

可证明有效的无限时间平均奖励强化学习与线性函数逼近

本文提出了一种计算上可行的算法，用于学习无限时间平均奖励的线性马尔可夫决策过程（MDP）和线性混合MDP，满足贝尔曼最优性条件。该算法在保证计算效率的同时，对于线性MDP实现了已知的最佳后悔界限，具有显著的理论和实践意义。

Sep, 2024