广义值函数逼近的强化学习：通过受限逃避维数可证明高效方法

May, 2020

广义值函数逼近的强化学习：通过受限逃避维数可证明高效方法

Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension

PDF

Ruosong Wang, Ruslan Salakhutdinov, Lin F. Yang

TL;DR本文提出一种基于一般价值函数逼近的强化学习算法，目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似，该算法将实现后悔界，为实际中使用的算法提供一个框架来证明其有效性。

Abstract

value function approximation has demonstrated phenomenal empirical success in reinforcement learning (RL). Nevertheless, despite a handful of recent progress on developing theory for RL with linear function appro

reinforcement learning value function approximation regret bound model-free algorithm

发现论文，激发创造

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

使用通用价值函数逼近进行强化学习中的随机探索

提出了一种无模型强化学习算法，由于乐观原则和最小二乘价值迭代算法的启示，通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索，在估计乐观值函数的同时引入了一种乐观的奖励采样过程，并证明了当数值函数可由函数类 \mathcal {F} 表示时，该算法实现了最坏情况下的遗憾度量边界，并在已知的难度探索任务上进行了实证评估。

Jun, 2021

广义线性函数逼近强化学习中的乐观主义

本论文提出了一种新的基于广义线性函数逼近的回合式强化学习算法，并在乐观闭合假设下分析其性能，证明了其具有更低的复杂度，并且是强化学习中第一个具有统计和计算效率的基于广义线性函数的算法。

Dec, 2019

VO$Q$L: 非线性函数逼近下无模型强化学习的最优遗憾

该研究旨在通过引入新算法 VOQL，改进理论边界，并实现对线性 MDP 等函数类的回归任务进行计算上的高效且统计优化的可行性。

Dec, 2022

具有线性函数逼近的可证明高效的无模型约束强化学习

发展第一个无需模拟器的模型自由算法，它在大型系统中实现次线性遗憾和次线性约束违规，并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。

Jun, 2022

在线样本子采样与一般函数逼近在强化学习中的应用

本研究设计了一种基于在线子采样技术的强化学习算法，可带有半参考函数近似和低切换成本，并使用上置信区间的探索驱动型奖励函数在无奖励情况下探索环境，其中计算时间为 O (poly (dH))，且保证在一定轮数的探索后能输出满足给定奖励函数的 epsilon 优越策略。

Jun, 2021

带线性函数逼近的正则化 Q 学习

通过在有限时间内收敛到线性函数逼近情况下的投影贝尔曼误差的单环路算法，本文提出的算法在马尔科夫噪声存在的情况下收敛于稳定点，并为该算法衍生的策略提供性能保证。

Jan, 2024

可证明高效的迭代 CVaR 强化学习与函数逼近

使用线性和一般函数逼近，对风险敏感的强化学习（RL）进行了研究，提出了名为 ICVaR-RL 的新的风险敏感 RL 公式，为每个决策步骤提供了保证安全性的原则方法，并提出了 ICVaR-L 和 ICVaR-G 两个高效算法，以及对 CVaR 算子的高效逼近，适应 CVaR 的特征的新的岭回归，以及精炼的椭球潜力引理。

Jul, 2023

使用线性函数逼近的无限时域离线强化学习：维度诅咒与算法

本文研究线性函数逼近下无穷时域离线强化学习的策略评估的样本复杂性以及分布漂移假设下的算法，提出了算法的样本复杂性的下界，以及样本复杂性的上界。

Mar, 2021

使用线性函数逼近的强化学习的指数难度

研究了线性回报学习中底层的计算下界问题，并在随机指数时间假设下显示出指数级下界，证明了底层计算困难性，并且展示了一个接近最优算法的时域依赖性下界。

Feb, 2023