使用函数逼近解决强化学习中重尾奖励问题：极小最优和实例相关遗憾界

Jun, 2023

使用函数逼近解决强化学习中重尾奖励问题：极小最优和实例相关遗憾界

Tackling Heavy-Tailed Rewards in Reinforcement Learning with Function Approximation: Minimax Optimal and Instance-Dependent Regret Bounds

PDF

Jiayi Huang, Han Zhong, Liwei Wang, Lin F. Yang

TL;DR本文提出了两个针对带有重尾奖励的强化学习问题的算法，分别是 extsc {Heavy-OFUL} 和 extsc {Heavy-LSVI-UCB}，并证明了它们在确定性和随机线性 bandits 的最劣情况下是最优的，同时通过一种新的鲁棒的自正规化集中不等式来实现优化。

Abstract

While numerous works have focused on devising efficient algorithms for reinforcement learning (RL) with uniformly bounded rewards, it remains an open question whether sample or time-efficient algorithms for RL with large state-action space exist when the rewards are \emph{heavy-tailed}

reinforcement learning linear function approximation heavy-tailed rewards minimax optimality self-normalized concentration inequality

发现论文，激发创造

广义线性 Bandit 算法及其重尾奖励的高效计算

本文研究了具有重尾回报的广义线性赌博问题，提出了基于截断和中值平均的两种新算法，其在时间上界和上下文信息维度的情况下，几乎达到了最优的减悔界限。通过数值实验结果验证了我们算法的优点。

Oct, 2023

具有线性功能逼近的重尾奖励方差感知健壮增强学习

该论文提出了两个算法 - AdaOFUL 和 VARA，以解决在有限方差的重尾回报情况下的在线顺序决策问题。这些算法可以应用于线性随机赌博机和线性马尔可夫决策过程，并且新的算法优于之前的算法。其中 AdaOFUL 和算法 Huber 回归适应进行对于重尾回报的处理，VARA 则提供了更紧的可变方差回报较紧的方案。

Mar, 2023

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021

重尾臂赌博机中实现全自适应遗憾最小化

学习重尾分布下的遗憾最小化问题，引入自适应算法并提供适应性鲁棒 UCB 方法，以最小化重尾 MAB 问题的遗憾。

Oct, 2023

具有线性函数逼近的可证明高效的无模型约束强化学习

发展第一个无需模拟器的模型自由算法，它在大型系统中实现次线性遗憾和次线性约束违规，并且仅通过特征映射的维度依赖于状态空间。这是通过在标准 LSVI-UCB 算法中引入原始 - 对偶优化和用软最大策略替换标准贪婪选择来实现的。

Jun, 2022

线性函数逼近下的最小最大优化强化学习

研究使用线性函数近似的强化学习，其中转移概率和奖励函数是关于特征映射 phi (s,a) 的线性函数。提出了新的计算高效算法 LSVI-UCB+，其在 Bernstein 类型的探索奖励的帮助下，具有常数估计的 L2 误差，并且特别适用于情节不同整体线性马尔可夫决策过程，证明了 LSVI-UCB + 的统计结果并且在理论上是最优秀的。

Jun, 2022

VO$Q$L: 非线性函数逼近下无模型强化学习的最优遗憾

该研究旨在通过引入新算法 VOQL，改进理论边界，并实现对线性 MDP 等函数类的回归任务进行计算上的高效且统计优化的可行性。

Dec, 2022

带有线性函数逼近的可证明有效强化学习

本文提出了第一个在基于线性动态和线性奖励时，具有多项式运行时间和样本复杂度的可证明的强化学习算法，该算法可以在不需要模拟器或其他假设的情况下实现，具有快速速度且与状态和动作数量无关。

Jul, 2019

线性函数逼近离线强化学习的基于实例的上界

本研究提出了一种基于 Bootstrapped and Constrained Pessimistic Value Iteration 算法的离线强化学习方法，该算法结合数据自举、约束优化和悲观主义。在局部数据覆盖的假设下，该算法提供了一个快速率，即使在自适应采集的离线数据中，也能够实现绝对零的次优误差和 O（1 / K）的较低界限。

Nov, 2022

线性赌博机和线性强化学习的近似最优表示学习

研究多任务线性臂和线性价值函数近似下的表示学习，并提出了一个可共享表示的算法，可在多任务和时间步数下实现更小的遗憾。

Feb, 2021