改进的对抗性线性混合马尔可夫决策过程算法：带有赌博反馈和未知状态转移

Mar, 2024

改进的对抗性线性混合马尔可夫决策过程算法：带有赌博反馈和未知状态转移

Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition

PDF

Long-Fei Li, Peng Zhao, Zhi-Hua Zhou

TL;DR我们研究了采用线性函数逼近、未知转移和对抗性损失函数的强化学习算法在强化学习环境下。

Abstract

We study reinforcement learning with linear function approximation, unknown transition, and adversarial losses in the →

reinforcement learning linear function approximation unknown transition adversarial losses bandit feedback

发现论文，激发创造

使用贝叶斯机器人反馈和未知转移学习对抗性 MDP

本文提出了一种有效的算法，解决了具有未知转移函数、bandit 反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题，该算法能够以高概率实现 $\mathcal {\tilde {O}}(L|X|\sqrt {|A|T})$ 的后悔，其中 $L$ 为时间段，$|X|$ 为状态数，$|A|$ 为动作数，而 $T$ 为剧集数。

Dec, 2019

线性混合 MDP 的高效无界强化学习算法

该研究论文提出了第一个计算高效、无横向界限算法，其中采用了加权最小二乘法，以用于未知状态转移动态的估算，并能够应用于异构线性 bandits 中，达到了比已知算法更优的效果。

May, 2022

在对抗性线性混合 MDPs 中的无限制视野强化学习

本文通过提出第一个无界时间步长多次对抗强化学习的策略搜索算法，使用方差 - 不确定性感知加权最小二乘估计器和基于占用度量的在线搜索技术，以解决探索和对抗性奖励所带来的挑战，证明算法在全信息反馈下具有 O ((d+log (|S|^2|A|)) sqrt (K)) 的后悔界，其中 d 是未知转移核线性参数化的已知特征映射的维数，K 是剧集数量，|S| 和 |A| 是状态和行为空间的基数。

May, 2023

通过线性优化改进线性对抗 MDPs 的遗憾界

本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题，通过将特征映射设置到线性优化的赌臂中，得到了不需要访问转移模拟器的新技术，并在探索性的假设下，将线性对手马尔科夫决策问题的最优结果从 $ ilde {O}(K^{6/7})$ 提高到了 $ ilde {O}(K^{4/5})$。

Feb, 2023

学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程

通过代表学习、探索和利用等相互交织的方法，本论文以非线性函数逼近和对抗性损失为基础，提出一种 POLO 算法，以实现对低秩马尔可夫决策过程 (Low-rank MDPs) 的次线性遗憾保证。

Nov, 2023

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。

Oct, 2023

针对学习对抗线性混合 MDP 的接近最优策略优化算法

本文研究含对手的强化学习中马尔科夫决策过程的学习问题，并提出了一种乐观的策略优化算法 POWERS，该算法可以达到近似最小化的最优遗憾，并证明了该算法的上下界。

Feb, 2021

改进方差自适应线性赌博机和无时序线性混合马尔可夫决策过程的遗憾分析

本篇论文研究在线学习中的方差自适应算法，提出了适用于线性赌臂机以及线性混合马尔可夫决策过程的遗憾界分析，该方法在未知方差的情况下，能够实现 Regret 的拟多项式算法复杂度降低。

Nov, 2021

同时学习具有已知转移的随机和对抗式连续决策问题

研究如何使用该算法在 stochastic losses 和 adversarial losses 的情况下同时获得最佳表现，并提出了一种新的混合正则化器，它基于 Zimmert 等人（2019a、2019b）的最新工作，但对于对角线海森矩阵逆运算比较复杂。

Jun, 2020

线性马尔科夫决策过程的近最小值最大化强化学习

本文介绍了一种基于加权线性回归方案的计算有效算法，用于处理线性马尔可夫决策过程的强化学习问题。该算法实现了近似最小化最优遗憾，具有较好的效率，对参数化转换动态有良好的适应性，可以对研究领域进行更细致的探讨。

Dec, 2022