Bellman Eluder 维度：强化学习新丰富问题类别和高样本效率算法

Feb, 2021

Bellman Eluder 维度：强化学习新丰富问题类别和高样本效率算法

Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms

Chi Jin, Qinghua Liu, Sobhan Miryoosefi

TL;DR本篇研究提出了一种新的复杂度测量方法 - Bellman Eluder (BE) 维度，以此来解决强化学习中如何提高样本效率的问题，并且设计了两种算法，GOLF 与 OLIVE，来最优地学习 BE 维度问题的策略，并推导出相关的后悔和样本复杂度结果。

Abstract

Finding the minimal structural assumptions that empower sample-efficient learning is one of the most important research directions in Reinforcement Learning (RL). This paper advances our understanding of this fundamental question by introducing a new complexity measure -- Bellman Elude

reinforcement learning complexity measure bellman eluder dimension optimization-based algorithm sample complexity results

发现论文，激发创造

基于模型的强化学习和逃避维度

本文研究学习优化未知马尔可夫决策过程问题，并通过参数化已知函数类来获得标度为系统维度而非基数的遗憾界，并提出了一种简单而计算高效的后验采样算法（PSRL）来满足这些界。

Jun, 2014

学习具有低基本 Bellman 误差的近最优策略

研究在近似线性行动价值函数的情况下，基于低内在 Bellman 误差的探索问题，给出了一种算法，其高概率的遗憾上界与特征维数和 Bellman 误差有关，同时将其与先前的工作进行了比较，在线性 MDP 的情况下，证明了这个算法具有统计效率。

Feb, 2020

强化学习中样本高效函数逼近的通用框架

本文提出了一个能够统一模型驱动和无模型驱动强化学习的通用框架，本框架中提出了一个可见证贝尔曼算法（ABC）类别，能够涵盖几乎所有文献中的马尔可夫决策过程（MDP）模型。结合该框架，本文提出了一个新的算法 OPtimization-based ExploRation with Approximation（OPERA），能够在多种 MDP 模型中达到最小遗憾的上限。

Sep, 2022

线性函数逼近下离线强化学习中固有贝尔曼误差的作用

在这篇论文中，我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差，这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法，可以在数据集的单策略覆盖条件下成功，输出的策略价值至少等于数据集覆盖良好的任何策略的价值。即使在固有贝尔曼误差为 0 的情况下（称为线性贝尔曼完备性），我们的算法也能够在单策略覆盖下提供已知的第一个保证。在固有贝尔曼误差为正值的情况下，我们证明了我们算法的次最优误差与固有贝尔曼误差的平方根成比例。此外，我们证明了对于任何算法，我们无法改进次最优误差与固有贝尔曼误差平方根的比例关系。我们的下界与强化学习在错误建模情况下的许多其他设置形成对比，在那些设置中，通常可以获得与建模误差线性退化的性能。

Jun, 2024

广义值函数逼近的强化学习：通过受限逃避维数可证明高效方法

本文提出一种基于一般价值函数逼近的强化学习算法，目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似，该算法将实现后悔界，为实际中使用的算法提供一个框架来证明其有效性。

May, 2020

面向适应性约束的序列决策通用框架

本篇论文探讨了稀有策略转换和批量学习这两个适应性约束下的通用顺序决策制定问题，并提出了通用的 Eluder 条件类以及一种最小化代价的通用算法，结果表明在各类函数类下都取得了相当好的效果。

Jun, 2023

超越线性马尔可夫决策过程中的对数切换成本在强化学习中应用

本研究提出了一种新的算法 ELEANOR-LowSwitching，它在低固有贝尔曼误差的线性贝尔曼完成马尔可夫决策过程中实现了近乎最优的遗憾，轻量级的开销只是具有对数期和特征维度的情况，同时，我们还证明了该算法具有次线性遗憾的所有算法之间成比例的下限，针对一般化的线性函数逼近，该算法可以被进一步利用利用它的 “翻倍技巧”，我们设计了一个样本效率高且开销接近最优的算法。

Feb, 2023

具有有限逃避者维度的基于模型的 RL 的均匀 PAC 保证

本研究提出了针对非线性赌博机和基于模型的的情境强化学习的算法，使用有界 eluder 维数的通用函数类，通过将每个行为分配到不同的级别，从而实现了统一的概率近似正确性（Uniform-PAC）保证。

May, 2023

线性贝尔曼完备性足以实现少动作高效在线强化学习

这篇研究论文介绍了线性贝尔曼完备性下强化学习中的值迭代算法，并提供了首个多项式时间复杂度的算法。

Jun, 2024

基于线性贝尔曼完备性的计算高效强化学习

我们研究了计算和统计效率高的线性 Bellman 完整设置下的强化学习算法，该设置使用线性函数逼近来捕捉值函数，并统一了线性马尔可夫决策过程和线性二次调节器等现有模型。

Jun, 2024