强化学习中样本高效函数逼近的通用框架

Sep, 2022

强化学习中样本高效函数逼近的通用框架

A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning

Zixiang Chen, Chris Junchi Li, Angela Yuan, Quanquan Gu, Michael I. Jordan

TL;DR本文提出了一个能够统一模型驱动和无模型驱动强化学习的通用框架，本框架中提出了一个可见证贝尔曼算法（ABC）类别，能够涵盖几乎所有文献中的马尔可夫决策过程（MDP）模型。结合该框架，本文提出了一个新的算法 OPtimization-based ExploRation with Approximation（OPERA），能够在多种 MDP 模型中达到最小遗憾的上限。

Abstract

With the increasing need for handling large state and action spaces, general function approximation has become a key technique in reinforcement learning (RL). In this paper, we propose a general framework that unifies m

reinforcement learning model-based model-free optimization-based exploration regret bounds

发现论文，激发创造

强化学习中的模型选择与通用函数逼近

该研究考虑经典强化学习环境下的模型选择问题，提出了针对 Multi Armed Bandits（MABs）和 Markov Decision Processes（MDPs）的高效自适应模型选择算法，并证明了在假设类可分离的情况下，该算法的累积损失与正规则匹配。

Jul, 2022

一般函数近似下的非平稳强化学习

本论文针对非平稳 MDP 问题，提出了一种复杂度指标 Dynamic Bellman Eluder 维度和一种新的置信区间算法 SW-OPEA，通过对非平稳线性和表格 MDPs 的示例进行演示，表明该算法在小变化预算场景下性能优于现有的 UCB 类型算法，同时证明了当变化预算不显著大时，SW-OPEA 算法是可以有效地执行。

Jun, 2023

高效学习具有普适函数逼近的无限视野平均奖励马尔可夫决策问题

我们提出了一种名为 LOOP 的新算法框架，它结合了基于模型和基于值的方法，用于研究无限时域平均奖励马尔可夫决策过程（AMDPs）。此外，我们提出了一个新的复杂度度量并证明了框架在几乎所有 AMDPs 中的有效性。

Apr, 2024

分布鲁棒离线强化学习的极小极大最优和计算高效算法

分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法，当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法，通过对线性参数化的模型进行实现，探索了实例依赖次优性分析在鲁棒离线强化学习中的应用，并揭示了鲁棒离线强化学习中的函数逼近与标准离线强化学习所面临的困难之间的本质区别。

Mar, 2024

强化学习中的计算统计差距

本文针对强化学习中的大状态空间问题，研究使用函数逼近的强化学习方法，并提出了寻找高效率算法的方案，同时探讨了计算难度与统计问题之间的关系。

Feb, 2022

广义值函数逼近的强化学习：通过受限逃避维数可证明高效方法

本文提出一种基于一般价值函数逼近的强化学习算法，目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似，该算法将实现后悔界，为实际中使用的算法提供一个框架来证明其有效性。

May, 2020

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022

低秩马尔可夫决策过程中的高效无模型探索

VoX 算法是首个可证明的高效的基于样本的搜索低阶马尔可夫决策过程算法，具备泛化功能近似且无需其他结构假设。该算法通过交替表示学习和策略优化，利用通用最优设计概念实现有效的最优设计计算。我们的分析简单而模块化，包括基于 Frank-Wolfe 方法的新型最优设计计算到策略优化的约简，以及对先前工作中某种特征嵌入的优化过的模块化分析。

Jul, 2023

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019