自适应近似策略迭代

Feb, 2020

Adaptive Approximate Policy Iteration

Botao Hao, Nevena Lazic, Yasin Abbasi-Yadkori, Pooria Joulani, Csaba Szepesvari

TL;DR本研究提出一种自适应近似政策迭代 (AAPI) 学习方案，其具有较好的理论保证，并基于在线学习技术只考虑价值函数，通过数据相关的自适应学习率和所谓的乐观损失预测相结合，可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限，在许多应用领域中取得了令人瞩目的表现。

Abstract

model-free reinforcement learning algorithms combined with value function approximation have recently achieved impressive performance in a variety of application domains. However, the theoretical understanding of such algorithms is limited, and existing results are largely focused on e

model-free reinforcement learning value function approximation adaptive approximate policy iteration regret bound online learning

发现论文，激发创造

带政策语言偏差的近似策略迭代：解决关系马尔可夫决策过程

研究大规模关系型马尔科夫决策过程（MDP）的政策选择方法，考虑一种近似政策迭代（API）的变体，用学习步骤在政策空间中替换通常的值函数学习步骤，介绍一个关系型政策语言和相应的学习器，以及基于随机游走的面向目标的规划域的自举例行程序，实验结果表明，该系统能够解决一系列的规划域和其随机变体，但提出了一些局限性建议未来工作。

Sep, 2011

在 q^π 可实现的 MDPs 中进行自信近似策略迭代，以实现高效的本地规划

论文提出了一种新的拟动态规划算法 Confident Approximate Policy Iteration (CAPI)，并将其应用于以局部模拟器为基础的规划问题中，该算法通过一系列策略来获得越来越精确的结果，在最小代价（内存和计算代价）下输出最优策略，同时该算法的查询复杂度较先进算法有很大的改善。

Oct, 2022

通过悲观主义实现最优离线强化学习

本文研究了离线强化学习问题，特别是针对有限时间视野 MDPs 的离线强化学习问题的采样效率问题，提出了自适应悲观值迭代算法，并推导了其次优性上界，推广到了无任何假设的情况下，并得到了无假设的本质学习下界，揭示了离线强化学习固有的根本限制。

Oct, 2021

近似策略迭代方案对比

本文考虑了马尔可夫决策过程所形式化的无限时间折扣率下的最优控制问题，研究了几种近似策略迭代算法，对它们进行了性能分析，显示了非静态策略迭代算法可以在内存和性能之间进行平衡。

May, 2014

动态策略编程

本文提出了一种新的策略迭代方法 —— 动态策略规划（DPP），用于在无限时间马尔可夫决策过程（MDP）中估计最优策略，证明了 DPP 在估计和近似误差存在的情况下的有限迭代和渐进 l∞-norm 性能损失边界，通过数值实验表明，与现有的强化学习方法相比，在所有情况下，基于 DPP 的算法表现出更好的性能。

Apr, 2010

$\sqrt {n}$-Regret 算法在带有函数逼近和低 Bellman 等级的马尔可夫决策过程学习中的应用

本文提出了一种在线学习算法，即 Adaptive Value-function Elimination（AVE），用于大规模状态空间下的 Markov 决策过程（MDPs），形式化了 OLIVE 中的淘汰步骤为上下文乐队问题，从而在学习过程中实现了最优价值函数的学习和非常低的累积遗憾，这是首次在具有一般价值函数逼近的随机 MDPs 中以 Θ（√n）的累积遗憾结果呈现出增强学习。

Sep, 2019

近似改进策略迭代

本文旨在探讨 Modified Policy Iteration（MPI）算法的近似形式，提出了三种扩展的适应于大规模状态和动作空间的 DP 算法，包括拟合值迭代、拟合 Q 迭代和基于分类的策略迭代，并提供了统一的误差传播分析方法。同时，对于基于分类的实现，发展了有限样本分析，以显示 MPI 的主要参数如何控制分类器的估计误差和整体价值函数的近似程度。

May, 2012

可证明高效的无限时间平均回报线性 MDP 的强化学习

设计了一个计算有效的算法，通过将平均奖励设定近似为折扣设定，并且在适当调整贴现因子时，通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程 (MDP) 的 O (sqrt (T)) 的遗憾。

May, 2024

高效学习具有普适函数逼近的无限视野平均奖励马尔可夫决策问题

我们提出了一种名为 LOOP 的新算法框架，它结合了基于模型和基于值的方法，用于研究无限时域平均奖励马尔可夫决策过程（AMDPs）。此外，我们提出了一个新的复杂度度量并证明了框架在几乎所有 AMDPs 中的有效性。

Apr, 2024

基于平均奖励的马尔可夫决策过程更为精确的无模型强化学习

我们提出了多种经过证明有效的无模型强化学习算法，包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法，在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。

Jun, 2023