基于 Bandit 反馈的乐观策略优化

ICMLFeb, 2020

Optimistic Policy Optimization with Bandit Feedback

Yonathan Efroni, Lior Shani, Aviv Rosenberg, Shie Mannor

TL;DR本研究考虑模型基于强化学习中的政策优化方法，提出了一种乐观的信任域策略优化算法，在离散情况下，对于未知转换和奖励反馈的情况，获得了首个亚线性 Regret 的下界。

Abstract

policy optimization methods are one of the most widely used classes of reinforcement learning (RL) algorithms. Yet, so far, such methods have been mostly analyzed from an optimization perspective, without address

policy optimization reinforcement learning model-based rl trust region policy optimization regret bounds

发现论文，激发创造

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

自适应信任域策略优化：正则化 MDPs 的全局收敛和更快速率

本文考虑在强化学习中使用的一种流行算法 Trust region policy optimization（TRPO）与传统的凸分析中自然的信任域方法之间的关系，证明了 TRPO 的适应性调节机制实际上是传统信任域方法的 RL 版本，并在规则化 MDP 中，展示了快速收敛速率的结果，这是关于规则化即时成本或奖励时在 RL 中的首个更好的结果。

Sep, 2019

线性马尔可夫决策过程中乐观近端策略优化的理论分析

本研究针对增强学习领域中的近端政策优化（PPO）算法，在线性马尔科夫决策过程中引入乐观变体，提出了一种新的多批次更新机制，使用价值和策略类的新覆盖数论算法进行优化和分析，成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。

May, 2023

信任域策略优化

本文提出了一种名为 TRPO 的实用算法，通过优化政策来达到保证单调改善的目的，并通过一系列实验展示了其在学习模拟机器人的 Swimming、Hopping 以及 Walking，并使用屏幕图像玩 Atari 游戏等众多方面的优越表现。

Feb, 2015

使用贝叶斯机器人反馈和未知转移学习对抗性 MDP

本文提出了一种有效的算法，解决了具有未知转移函数、bandit 反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题，该算法能够以高概率实现 $\mathcal {\tilde {O}}(L|X|\sqrt {|A|T})$ 的后悔，其中 $L$ 为时间段，$|X|$ 为状态数，$|A|$ 为动作数，而 $T$ 为剧集数。

Dec, 2019

延迟自适应策略优化及基于滞后赌博反馈的对抗 MDP 改进的遗憾

研究 PO 在带有滞后奖励的对抗 MDPs 中的应用，提出 Delay-Adapted PO 算法并得到全新的表格 MDPs 回归界限，在基于线性 Q 函数的无限状态空间和深度 RL 应用中都取得了显著的成果。

May, 2023

双重利润策略优化

本文针对 tabular Markov 决策过程中的策略优化方法，通过设计适当的正则化器、探索奖励和学习率，在损失为随机时实现更优的 Polylog (T) 的损失，而在对抗的情况下不降低最坏情况下的保障，并且使用 Tsallis Entropy 和 Shannon Entropy regularizer 实现了这一目标。同时，我们展示了在已知的转移条件下，通过利用对数障碍正则化器，在对抗情况下可以获得一阶损失保证。

Feb, 2023

自适应上界置信度增强的近端策略优化

通过引入自适应 PPO-CLIP（Adaptive-PPO）方法，动态探索和利用带卡尔曼滤波的剪辑边界，在线训练过程中改善 PPO 的性能，并通过大量实验初步证明我们的自适应 PPO 对比 PPO-CLIP 表现出的样本效率和性能。

Dec, 2023

回顾性信任区域策略优化

我们提出了一种新的强化学习算法：Hindsight Trust Region Policy Optimization，它通过利用 hindsight 来提高稀疏抽奖的表现，并引入了 QKL 和 HGF 两种方法来提高学习稳定性和表现。我们在各种稀疏抽奖任务中评估了 HTRPO，包括简单的基准测试、基于图像的 Atari 游戏和模拟机器人控制。消融研究表明，QKL 和 HGF 对学习稳定性和高性能有很大贡献。比较结果表明，在所有任务中，HTRPO 始终优于 TRPO 和 HPG。

Jul, 2019

基于信赖域引导的近端策略优化

对 Proximal policy optimization 的探索行为进行了深入分析，提出了一种名为 Trust Region-Guided PPO 的新的策略优化方法，通过自适应调整裁剪范围解决了初始条件差的情况下缺乏探索的问题，并证明其相较于原始的 PPO 算法有更好的性能表现。

Jan, 2019