无标度对抗强化学习

Mar, 2024

Scale-free Adversarial Reinforcement Learning

Mingyu Chen, Xuezhou Zhang

TL;DR该研究探讨了马尔可夫决策过程中的无标度学习问题，提出了一个通用的算法框架（SCB），并在对抗性多臂赌博机和对抗性马尔可夫决策过程中应用该框架，从而实现了无标度对抗性多臂赌博机的首个鲁棒（最小化）期望遗憾上界和首个高概率遗憾上界，并产生了第一个具有$\tilde{\mathcal{O}}(\sqrt{T})$高概率遗憾保证的无标度强化学习算法。

Abstract

This paper initiates the study of scale-free learning in markov decision processes (MDPs), where the scale of rewards/losses is unknown to the learner. We design a generic algorithmic framework, \underline{S}cale

发现论文，激发创造

无模型强化学习中的无限时域平均奖赏马尔可夫决策过程

本文提出两种基于无模型的强化学习算法，用于学习无限时间持续的平均回报MDP问题，第一种算法在弱相互通信的MDPs中，将问题简化为折扣回报问题，在T步之后的遗憾为O(T^(2/3)),该算法是解决该问题的第一种无模型的算法；第二种算法利用了对抗多臂老虎机自适应算法的最新进展，将遗憾进一步改进至O(sqrt(T))，但需要更强的符合人类定义的遍历条件。这个结果取代了Abbasi-Yadkori等人2019年只有在符合人类定义的遍历条件下的ergodic MDP才能达到O(T^(3/4))的遗憾。

Oct, 2019

使用贝叶斯机器人反馈和未知转移学习对抗性MDP

本文提出了一种有效的算法，解决了具有未知转移函数、bandit反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题，该算法能够以高概率实现 $\mathcal{\tilde{O}}(L|X|\sqrt{|A|T})$ 的后悔，其中 $L$ 为时间段，$|X|$ 为状态数，$|A|$ 为动作数，而 $T$ 为剧集数。

Dec, 2019

除去偏见：针对对抗性赌博机和MDPs的高概率数据依赖性遗憾边界

发展了一种新的方法，使用标准无偏估计量，并依赖于简单的递增的学习速率表和对数单调自协调障碍以及加强的弗里德曼不等式，以获取高概率遗憾边界。

Jun, 2020

针对学习对抗线性混合MDP的接近最优策略优化算法

本文研究含对手的强化学习中马尔科夫决策过程的学习问题，并提出了一种乐观的策略优化算法POWERS，该算法可以达到近似最小化的最优遗憾，并证明了该算法的上下界。

Feb, 2021

对抗MDP中的策略优化：通过扩张奖励实现更好的探索

本研究提出了在政策优化中添加膨胀奖励以促进全局探索的解决方案，用于改进和推广了（在具有对抗性损失和赌徒反馈的情况下）几个历史上最先进的MDP设定，并得到了更优秀的结果，其中包括调整了先前已知的结果。

Jul, 2021

通过线性优化改进线性对抗MDPs的遗憾界

本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题，通过将特征映射设置到线性优化的赌臂中，得到了不需要访问转移模拟器的新技术，并在探索性的假设下，将线性对手马尔科夫决策问题的最优结果从 $ ilde{O}(K^{6/7})$ 提高到了 $ ilde{O}(K^{4/5})$。

Feb, 2023

无悔在线强化学习中的对抗损失和转换

本篇论文提出了一种在线学习算法，能够同时应对恶意对手的损失函数和状态转移，并且随着对手的恶意程度而平稳地增加遗憾，同时采用黑盒约简方法达到无需先验知识的效果。此外，本文还对算法进行了改进，在生成损失的环境易于控制的情况下可以实现较小的遗憾。

May, 2023

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一, 尤其在线性Markov决策过程中使用了对抗性损失和强盗反馈, 提出了两个算法以改善后悔性能。

Oct, 2023

通过策略优化缩小对抗性和随机MDP之间的差距

通过使用APO-MVP算法和基于动态规划和黑盒在线线性优化策略的策略优化，本文在对手强 Markov 决策过程中提出了一个新的追悔边界概念，并且通过估计优势函数以避免典型的占有度量工具，实现了对状态和动作空间大小的优化，使得算法易于实现。

Jul, 2024

在未知转移和带宽反馈下击败对抗性低秩马尔可夫决策过程

本研究解决了低秩马尔可夫决策过程中的遗憾最小化问题，聚焦于未知转移的全信息损失反馈和带宽损失反馈的设置。论文提出改进的算法，使得在全信息未知转移情况下的遗憾界限达到$poly(d, A, H)T^{2/3}$，并首次探讨了在带宽损失反馈与未知转移的条件下的算法，揭示线性结构对带宽情况下的必要性，对比全信息情况下的不同表现。

Nov, 2024