学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程

Nov, 2023

学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程

Learning Adversarial Low-rank Markov Decision Processes with Unknown Transition and Full-information Feedback

Canzhe Zhao, Ruofeng Yang, Baoxiang Wang, Xuezhou Zhang, Shuai Li

TL;DR通过代表学习、探索和利用等相互交织的方法，本论文以非线性函数逼近和对抗性损失为基础，提出一种 POLO 算法，以实现对低秩马尔可夫决策过程 (Low-rank MDPs) 的次线性遗憾保证。

Abstract

In this work, we study the low-rank mdps with adversarially changed losses in the full-information feedback setting. In particular, the unknown transition probability kernel admits a low-rank matrix decomposition

low-rank mdps adversarially changed losses policy optimization-based algorithm regret guarantee representation learning

发现论文，激发创造

改进的对抗性线性混合马尔可夫决策过程算法：带有赌博反馈和未知状态转移

我们研究了采用线性函数逼近、未知转移和对抗性损失函数的强化学习算法在强化学习环境下。

Mar, 2024

使用贝叶斯机器人反馈和未知转移学习对抗性 MDP

本文提出了一种有效的算法，解决了具有未知转移函数、bandit 反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题，该算法能够以高概率实现 $\mathcal {\tilde {O}}(L|X|\sqrt {|A|T})$ 的后悔，其中 $L$ 为时间段，$|X|$ 为状态数，$|A|$ 为动作数，而 $T$ 为剧集数。

Dec, 2019

针对学习对抗线性混合 MDP 的接近最优策略优化算法

本文研究含对手的强化学习中马尔科夫决策过程的学习问题，并提出了一种乐观的策略优化算法 POWERS，该算法可以达到近似最小化的最优遗憾，并证明了该算法的上下界。

Feb, 2021

通过线性优化改进线性对抗 MDPs 的遗憾界

本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题，通过将特征映射设置到线性优化的赌臂中，得到了不需要访问转移模拟器的新技术，并在探索性的假设下，将线性对手马尔科夫决策问题的最优结果从 $ ilde {O}(K^{6/7})$ 提高到了 $ ilde {O}(K^{4/5})$。

Feb, 2023

具有延迟反馈的对抗性马尔可夫决策过程学习

本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Dec, 2020

在对抗性线性混合 MDPs 中的无限制视野强化学习

本文通过提出第一个无界时间步长多次对抗强化学习的策略搜索算法，使用方差 - 不确定性感知加权最小二乘估计器和基于占用度量的在线搜索技术，以解决探索和对抗性奖励所带来的挑战，证明算法在全信息反馈下具有 O ((d+log (|S|^2|A|)) sqrt (K)) 的后悔界，其中 d 是未知转移核线性参数化的已知特征映射的维数，K 是剧集数量，|S| 和 |A| 是状态和行为空间的基数。

May, 2023

马尔科夫决策过程中基于对手选择转移概率分布的在线学习

研究了在转换概率分布和损失函数是对手选择并随时间变化时，如何学习具有有限状态和动作空间的马尔可夫决策过程问题。介绍了一种算法，如果转换概率满足均匀混合条件，则任何比较类中的策略的后悔增长为比赛轮数的平方根。只要比较类是多项式级别且我们可以为每个策略计算样本路径的期望值，我们的方法就是有效的。对于一般情况的后悔小的高效算法仍然是一个开放的问题。

Mar, 2013

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018

线性函数逼近的对抗式 MDP 的精炼遗憾

本文研究了在损失函数任意的情况下，对于线性近似的 Q 函数，提出了两种算法，可以在拥有模拟器的情况下使得损失最小值达到 $\tilde {\mathcal O}(\sqrt K)$，并在无模拟器情况下实现了 $ ilde {\mathcal O}(K^{8/9})$ 的表现，改进了之前的表现

Jan, 2023

非定常线性马尔可夫决策过程中的高效学习

本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程（MDP）最优模型 - free 算法 OPT-WLSVI，使用指数权重平滑地遗忘过去的数据，与先前的研究相比解决了遗忘策略上的技术差距，并分析了与最佳策略竞争的总遗憾是有上限的。

Oct, 2020