无需热身的策略优化：在线性马尔可夫决策过程中改进遗憾

Jul, 2024

无需热身的策略优化：在线性马尔可夫决策过程中改进遗憾

Warm-up Free Policy Optimization: Improved Regret in Linear Markov Decision Processes

Asaf Cassel, Aviv Rosenberg

TL;DR本文提出一种基于策略优化的算法，通过简单高效的收缩机制替代了昂贵的探索预热阶段，实现了在两种基本设置下的最优遗憾保证，即全信息反馈的对抗性损失和赌博反馈的随机损失。

Abstract

policy optimization (PO) methods are among the most popular Reinforcement Learning (RL) algorithms in practice. Recently, Sherman et al. [2023a] proposed a PO-based algorithm with rate-optimal regret guarantees u

policy optimization reinforcement learning markov decision process regret guarantees adversarial losses

发现论文，激发创造

延迟自适应策略优化及基于滞后赌博反馈的对抗 MDP 改进的遗憾

研究 PO 在带有滞后奖励的对抗 MDPs 中的应用，提出 Delay-Adapted PO 算法并得到全新的表格 MDPs 回归界限，在基于线性 Q 函数的无限状态空间和深度 RL 应用中都取得了显著的成果。

May, 2023

线性马尔可夫决策过程中乐观近端策略优化的理论分析

本研究针对增强学习领域中的近端政策优化（PPO）算法，在线性马尔科夫决策过程中引入乐观变体，提出了一种新的多批次更新机制，使用价值和策略类的新覆盖数论算法进行优化和分析，成果在随机线性马尔可夫决策过程和完全信息对抗性线性马尔可夫决策过程中取得了最先进的成果。在对强化学习领域的理解和改进方面具有重要意义。

May, 2023

线性马尔可夫决策过程的速率最优策略优化

在线循环线性马尔可夫决策过程中的遗憾最小化与策略优化方法相关联，并且在随机情境下使用自调整速率达到最佳收敛速度，为该领域建立了最佳收敛速度的算法。

Aug, 2023

短预热期折扣 MDP 的遗憾最优免模型强化学习

本文提出了一个模型自由的算法，通过方差降低和新颖的执行策略，解决了强化学习马尔可夫决策过程中无法实现遗憾最优和存在长时间燃烧期的问题，实现了短燃烧期下的最优采样效率。

May, 2023

双重利润策略优化

本文针对 tabular Markov 决策过程中的策略优化方法，通过设计适当的正则化器、探索奖励和学习率，在损失为随机时实现更优的 Polylog (T) 的损失，而在对抗的情况下不降低最坏情况下的保障，并且使用 Tsallis Entropy 和 Shannon Entropy regularizer 实现了这一目标。同时，我们展示了在已知的转移条件下，通过利用对数障碍正则化器，在对抗情况下可以获得一阶损失保证。

Feb, 2023

基于 Bandit 反馈的乐观策略优化

本研究考虑模型基于强化学习中的政策优化方法，提出了一种乐观的信任域策略优化算法，在离散情况下，对于未知转换和奖励反馈的情况，获得了首个亚线性 Regret 的下界。

Feb, 2020

针对学习对抗线性混合 MDP 的接近最优策略优化算法

本文研究含对手的强化学习中马尔科夫决策过程的学习问题，并提出了一种乐观的策略优化算法 POWERS，该算法可以达到近似最小化的最优遗憾，并证明了该算法的上下界。

Feb, 2021

策略优化中可证明高效的探索

本文提出了一种 Proximal Policy Optimization 算法的乐观变异版本（OPPO），它实现了在带有线性函数拟合、未知转移和对抗奖励的情况下，探索机制下的近似最优解，是第一种实现这一目标的算法。

Dec, 2019

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。

Oct, 2023

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022