可证明的无需重制强化学习算法

AAAIJan, 2023

Provable Reset-free Reinforcement Learning by No-Regret Reduction

Hoai-An Nguyen, Ching-An Cheng

TL;DR提出了一种重置免费的强化学习算法，将重置免费 RL 转化为两个玩家的博弈，以达到次线性性能失误和次线性重置总数。此外，提出的线性马尔可夫决策过程实例是第一个经过证明的重置免费 RL 算法。

Abstract

Real-world reinforcement learning (RL) is often severely limited since typical RL algorithms heavily rely on the reset mechanism to sample proper initial states. In practice, the reset mechanism is expensive to implement due to the need for human intervention or heavily engineered envi

reinforcement learning reset-free algorithm markov decision process performance regret optimization

发现论文，激发创造

从增强学习到无悔在线学习的降低

提出了一种基于鞍点形式的强化学习到无悔在线学习的缩减方法，将强化学习问题分解成了遗憾最小化和函数逼近两个部分，并指出了这一缩减方法的重要性

Nov, 2019

无痕迹：学会重置以实现安全和自主的强化学习

本文提出了一种可以同时学习前向策略和清除策略的自动化安全有效的强化学习方法，可以显著减少手动重置，减少不安全的动作，并能自动诱导课程。

Nov, 2017

突破样本复杂度障碍，实现后悔优化的无模型强化学习

通过引入方差缩减策略，设计了一个记忆高效的算法来解决在线序列化强化学习中的勘探和开发之间的平衡问题，该算法的空间复杂度为 $ O (SAH)$，较以前的算法提高了 $S^5A^3$ 倍的效率。

Oct, 2021

部分可观测深度强化学习的后悔最小化

本研究提出了一种新的基于反事实遗憾最小化的深度强化学习算法，能够有效处理部分观测状态，并在 Doom 和 Minecraft 中的学习第一人称的 3D 导航以及在 Doom 和 Pong 中进行部分观测对象的动作等强化学习任务中显著优于现有基线算法。

Oct, 2017

组合无遗憾和 Q 学习

介绍一种名为本地无后悔学习（LONR）的算法，它使用类似于 Q 学习的更新规则，允许在没有输入状态或完美回忆的情况下进行学习，证明了其在 MDPs 和有限的扩展中的收敛性，并呈现实验结果，表明它在许多情况下实现了最后迭代的收敛，特别是 NoSDE 游戏这类的 Markov 游戏。

Oct, 2019

顺序任务设置中最小化局部遗憾的谬误

强化学习中，研究任务间具有变化时，通过最小化后悔累积可以实现更好的结果，即在每个任务中过度探索，尤其在任务之间出现重大变化时。

Mar, 2024

短预热期折扣 MDP 的遗憾最优免模型强化学习

本文提出了一个模型自由的算法，通过方差降低和新颖的执行策略，解决了强化学习马尔可夫决策过程中无法实现遗憾最优和存在长时间燃烧期的问题，实现了短燃烧期下的最优采样效率。

May, 2023

基于重置游戏的控制基元继续学习技能发掘

提出一个能够在解决真实世界中很多挑战的同时，通过学习 ' 重置技能 ' 来帮助代理人更有效地学习技能的通用博弈形式方法，并实验表明该方法可以显著提高代理人的表现和加速后续学习。

Nov, 2020

基于约束的强化学习的简单无回报方法

本文探讨奖励自由强化学习和受限制的强化学习之间的联系，在标记 MDP 设置中，我们提出了一种简单的元算法，利用现有的奖励自由 RL 解算器，对受限制的强化学习问题进行直接求解，在现有结果的基础上匹配最佳结果，同时在线性函数近似下，我们直接将其扩展到标记二人马尔可夫博弈的设置中，并提供了一个新的受限制的 RL 结果。

Jul, 2021

Q 学习是否可以被有效证明？

该研究论文探讨了模型无关的强化学习算法的样本效率问题，证明了 Q-learning 与 UCB 探索策略可以实现最优的样本效率，且无需模拟器，达到了根据有限状态和动作数量计算得到的仅有单一 $\sqrt {H}$ 因子的遗憾率。

Jul, 2018