在线样本子采样与一般函数逼近在强化学习中的应用

Jun, 2021

在线样本子采样与一般函数逼近在强化学习中的应用

Online Sub-Sampling for Reinforcement Learning with General Function Approximation

Dingwen Kong, Ruslan Salakhutdinov, Ruosong Wang, Lin F. Yang

TL;DR本研究设计了一种基于在线子采样技术的强化学习算法，可带有半参考函数近似和低切换成本，并使用上置信区间的探索驱动型奖励函数在无奖励情况下探索环境，其中计算时间为 O (poly (dH))，且保证在一定轮数的探索后能输出满足给定奖励函数的 epsilon 优越策略。

Abstract

Designing provably efficient algorithms with general function approximation is an important open problem in reinforcement learning. Recently, Wang et al.~[2020c] establish a value-based algorithm with general fun

reinforcement learning general function approximation algorithm design computation time policy switching cost

发现论文，激发创造

广义值函数逼近的强化学习：通过受限逃避维数可证明高效方法

本文提出一种基于一般价值函数逼近的强化学习算法，目的是建立一种没有对环境模型的显式假设的 RL 算法。如果价值函数能使用函数集合 F 近似，该算法将实现后悔界，为实际中使用的算法提供一个框架来证明其有效性。

May, 2020

使用通用价值函数逼近进行强化学习中的随机探索

提出了一种无模型强化学习算法，由于乐观原则和最小二乘价值迭代算法的启示，通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索，在估计乐观值函数的同时引入了一种乐观的奖励采样过程，并证明了当数值函数可由函数类 \mathcal {F} 表示时，该算法实现了最坏情况下的遗憾度量边界，并在已知的难度探索任务上进行了实证评估。

Jun, 2021

使用线性函数逼近的无限时域离线强化学习：维度诅咒与算法

本文研究线性函数逼近下无穷时域离线强化学习的策略评估的样本复杂性以及分布漂移假设下的算法，提出了算法的样本复杂性的下界，以及样本复杂性的上界。

Mar, 2021

广义线性函数逼近强化学习中的乐观主义

本论文提出了一种新的基于广义线性函数逼近的回合式强化学习算法，并在乐观闭合假设下分析其性能，证明了其具有更低的复杂度，并且是强化学习中第一个具有统计和计算效率的基于广义线性函数的算法。

Dec, 2019

基于通用函数逼近和单策略聚合的可证明高效离线目标条件下强化学习

本文提出了一种新的基于离线数据的强化学习算法，该算法拥有通用函数逼近能力、单策略集中性和统计效率，并且只需要极少的假设前提和计算稳定性。

Feb, 2023

强化学习中样本高效函数逼近的通用框架

本文提出了一个能够统一模型驱动和无模型驱动强化学习的通用框架，本框架中提出了一个可见证贝尔曼算法（ABC）类别，能够涵盖几乎所有文献中的马尔可夫决策过程（MDP）模型。结合该框架，本文提出了一个新的算法 OPtimization-based ExploRation with Approximation（OPERA），能够在多种 MDP 模型中达到最小遗憾的上限。

Sep, 2022

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

在线敏感采样下的低转换策略梯度与探索

本文提出了一种 LPO 算法来解决强化学习中的政策优化问题，其中包括限制 eluder 维度和在线灵敏度采样等最近进展的应用，可以实现一定程度的非线性函数逼近，通过使用深度神经网络验证了理论方法的成果。

Jun, 2023

基于线性函数逼近的无奖励强化学习中的近最优部署效率

研究如何在施加 “无回报探索” 的情况下，使用线性函数逼近在提高效率时落地实施策略，最后我们提出了一种新算法，只需在 H 次部署中收集最多 O (~d²H⁵/ε²) 的轨迹，在不同的奖励函数设定下，即可找到一个 ε- 最优策略，并且在样本复杂度和 d 依赖性中同时达到最优的部署复杂度。

Oct, 2022

具有线性函数逼近的分布鲁棒离线强化学习

本论文介绍了一种用于解决强化学习中有限数据和训练测试环境不匹配的问题的分布式离线 RL 方法，该方法使用历史数据学习分布式鲁棒的策略，包括线性函数逼近的情况，提出了两种算法，得出了第一个样例复杂度的非渐近性结果，并展示了其在实验上的优越性。

Sep, 2022