双重利润策略优化

Feb, 2023

Best of Both Worlds Policy Optimization

Christoph Dann, Chen-Yu Wei, Julian Zimmert

TL;DR本文针对 tabular Markov 决策过程中的策略优化方法，通过设计适当的正则化器、探索奖励和学习率，在损失为随机时实现更优的 Polylog (T) 的损失，而在对抗的情况下不降低最坏情况下的保障，并且使用 Tsallis Entropy 和 Shannon Entropy regularizer 实现了这一目标。同时，我们展示了在已知的转移条件下，通过利用对数障碍正则化器，在对抗情况下可以获得一阶损失保证。

Abstract

policy optimization methods are popular reinforcement learning algorithms in practice. Recent works have built theoretical foundation for them by proving $\sqrt{T}$ regret bounds even when the losses are adversar

policy optimization reinforcement learning markov decision processes polylog(t) regret entropy regularizer

发现论文，激发创造

最佳选择：具备未知转移的随机与对抗式序列决策问题（MDP）

研究了通过 T 个 episode 学习马尔可夫决策过程中两全其美的问题，提出了一种新的变换，将方法从已知转移推广到未知转移下，并使得转移估计错误上界为多项式级别。

Jun, 2021

同时学习具有已知转移的随机和对抗式连续决策问题

研究如何使用该算法在 stochastic losses 和 adversarial losses 的情况下同时获得最佳表现，并提出了一种新的混合正则化器，它基于 Zimmert 等人（2019a、2019b）的最新工作，但对于对角线海森矩阵逆运算比较复杂。

Jun, 2020

针对学习对抗线性混合 MDP 的接近最优策略优化算法

本文研究含对手的强化学习中马尔科夫决策过程的学习问题，并提出了一种乐观的策略优化算法 POWERS，该算法可以达到近似最小化的最优遗憾，并证明了该算法的上下界。

Feb, 2021

对抗 MDP 中的策略优化：通过扩张奖励实现更好的探索

本研究提出了在政策优化中添加膨胀奖励以促进全局探索的解决方案，用于改进和推广了（在具有对抗性损失和赌徒反馈的情况下）几个历史上最先进的 MDP 设定，并得到了更优秀的结果，其中包括调整了先前已知的结果。

Jul, 2021

线性函数逼近的对抗式 MDP 的精炼遗憾

本文研究了在损失函数任意的情况下，对于线性近似的 Q 函数，提出了两种算法，可以在拥有模拟器的情况下使得损失最小值达到 $\tilde {\mathcal O}(\sqrt K)$，并在无模拟器情况下实现了 $ ilde {\mathcal O}(K^{8/9})$ 的表现，改进了之前的表现

Jan, 2023

基于 Bandit 反馈的乐观策略优化

本研究考虑模型基于强化学习中的政策优化方法，提出了一种乐观的信任域策略优化算法，在离散情况下，对于未知转换和奖励反馈的情况，获得了首个亚线性 Regret 的下界。

Feb, 2020

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。

Oct, 2023

对抗性马尔科夫决策过程中的在线凸优化

本文研究了在线学习在没有循环的马尔可夫决策过程中的应用，提出了基于熵正则化方法实现的在线算法并给出了 $\tilde {O}(L|X|\sqrt {|A|T})$ 的遗憾界，通过处理凸性能标准并改进之前的遗憾界，扩展了对抗性 MDP 模型，并可以更好地处理单个 episode 的损失。

May, 2019

线性上下文强化学习的最佳算法

我们研究了针对 K 臂线性情境赌博机的最佳算法，无需先前对环境有所了解，在敌对和随机的情境下都能够提供接近最优的后悔边界。

Dec, 2023

无悔在线强化学习中的对抗损失和转换

本篇论文提出了一种在线学习算法，能够同时应对恶意对手的损失函数和状态转移，并且随着对手的恶意程度而平稳地增加遗憾，同时采用黑盒约简方法达到无需先验知识的效果。此外，本文还对算法进行了改进，在生成损失的环境易于控制的情况下可以实现较小的遗憾。

May, 2023