带有策略建议的强化学习的遗憾界

May, 2013

带有策略建议的强化学习的遗憾界

Regret Bounds for Reinforcement Learning with Policy Advice

Mohammad Gheshlaghi Azar, Alessandro Lazaric, Emma Brunskill

TL;DR本文提出了一种强化学习与策略建议（RLPA）算法，可以利用提供的一组输入策略并学会使用最佳策略来解决当前的强化学习任务。我们证明了算法的深度复杂度和次线性遗憾与最佳输入策略相对应，而这种遗憾和复杂度与状态和动作空间的大小无关。我们的实验模拟支持我们的理论分析。这表明 RLPA 可能在提供先前良好策略的大型领域中具有重要优势。

Abstract

In some reinforcement learning problems an agent may be provided with a set of input policies, perhaps learned from prior experience or provided by advisors. We present a →

reinforcement learning policy advice regret input policies computational complexity

发现论文，激发创造

基于模型的强化学习中贪心策略的严格遗憾界

本文聚焦在有限状态有限时间的马尔科夫决策过程设置下的模型基 RL，证明了探索具有贪心策略可以实现紧密的极小极大性能，从而完全避免使用 full-planning，而复杂度降为 S，并通过实时动态规划进行了新颖的分析。

May, 2019

具有次线性遗憾的终身强化学习安全策略搜索

开发一种在对抗环境下实施多任务在线学习、可以执行安全约束的终身策略梯度学习算法，通过在基准动态系统和四旋翼控制应用中验证，实现了终身策略搜寻的次线性遗憾。

May, 2015

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021

分解马尔可夫决策过程中近最优强化学习

通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法，在已知为 factored MDP 系统中，可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别，从而大大减少了学习时间。

Mar, 2014

线性二次型调节器的鲁棒自适应控制遗憾界

本文提出了一种自适应控制的方法，可用于处理 Linear Quadratic Regulator 中未知的线性系统和需求预测的问题，算法的时间复杂度为多项式级别，且在控制中有很好的保障。

May, 2018

具有 PAC 和遗憾保证的私人强化学习

在高风险决策领域，如个性化医疗，用户信息天然敏感，因此设计了保护隐私的强化学习策略。采用联合差分隐私（JDP）提供有意义的隐私表述，并开发一种基于乐观主义的隐私保护学习算法，同时实现强 PAC 和遗憾边界，且享有 JDP 保证。此算法只在探索方面付出适度的隐私代价。最后，我们针对 JDP 强化学习提出了样本复杂性和遗憾的下界。

Sep, 2020

无折扣连续强化学习的在线遗憾界

该研究针对连续状态空间中的无折扣强化学习问题，提出了一种结合状态聚合和使用置信上界实现面对不确定性乐观的算法，在 rewards 和 transition probabilities 保持 Holder 连续性的情况下，给出了子线性遗憾界。

Feb, 2013

潜在 MDPs 的强化学习：遗憾保证和下界

在本文中，我们考虑了隐式马尔科夫决策过程中强化学习的遗憾最小化问题，我们提出了一个具有局部保证的有效算法，以解决这个问题。

Feb, 2021

超越无悔：实例相关的 PAC 强化学习

研究提出了一种新的针对 PAC 表格强化学习的实例相关样本复杂度的计算方法，并设计了一种能够达到该样本复杂度的规划算法，该算法几乎是极小值最优的，且在多个实例上展现出比最坏情况界限更显著的改进。

Aug, 2021

统一 PAC 和遗憾：关于时序强化学习的统一 PAC 界

本篇论文提出了一种新的理论框架 Uniform-PAC，用于测量强化学习算法的性能，可以为高风险应用程序如医疗保健等提供统计性能保障。该框架与传统的 PAC 框架相比，可以提供高概率的后悔保证，因此形成了一座桥梁，填补了文献中缺少的两个设置之间的空白。针对有限状态的情境马尔科夫决策过程，我们演示了新算法的优点，该算法 Uniform-PAC 并同时实现了最优保障和 PAC 保障，除了地平线因素外。

Mar, 2017