具有延迟反馈的对抗性马尔可夫决策过程学习

AAAIDec, 2020

具有延迟反馈的对抗性马尔可夫决策过程学习

Learning Adversarial Markov Decision Processes with Delayed Feedback

Tal Lancewicki, Aviv Rosenberg, Yishay Mansour

TL;DR本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Abstract

reinforcement learning typically assumes that agents observe feedback for their actions immediately, but in many real-world applications (like recommendation systems) feedback is observed in delay. This paper studies on

reinforcement learning online learning episodic markov decision processes delayed feedback regret minimization

发现论文，激发创造

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。

Oct, 2023

对抗性马尔科夫决策过程中的在线凸优化

本文研究了在线学习在没有循环的马尔可夫决策过程中的应用，提出了基于熵正则化方法实现的在线算法并给出了 $\tilde {O}(L|X|\sqrt {|A|T})$ 的遗憾界，通过处理凸性能标准并改进之前的遗憾界，扩展了对抗性 MDP 模型，并可以更好地处理单个 episode 的损失。

May, 2019

使用贝叶斯机器人反馈和未知转移学习对抗性 MDP

本文提出了一种有效的算法，解决了具有未知转移函数、bandit 反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题，该算法能够以高概率实现 $\mathcal {\tilde {O}}(L|X|\sqrt {|A|T})$ 的后悔，其中 $L$ 为时间段，$|X|$ 为状态数，$|A|$ 为动作数，而 $T$ 为剧集数。

Dec, 2019

延迟、组合和部分匿名回报的强化学习

本文研究了具有延迟、组合和部分匿名奖励反馈的无限期望回报马尔可夫决策过程，并提出了名为 DUCRL2 的算法来获得近似最优策略，并证明其达到了类似于 ODS 的遗憾界。

May, 2023

同时学习具有已知转移的随机和对抗式连续决策问题

研究如何使用该算法在 stochastic losses 和 adversarial losses 的情况下同时获得最佳表现，并提出了一种新的混合正则化器，它基于 Zimmert 等人（2019a、2019b）的最新工作，但对于对角线海森矩阵逆运算比较复杂。

Jun, 2020

马尔科夫决策过程中基于对手选择转移概率分布的在线学习

研究了在转换概率分布和损失函数是对手选择并随时间变化时，如何学习具有有限状态和动作空间的马尔可夫决策过程问题。介绍了一种算法，如果转换概率满足均匀混合条件，则任何比较类中的策略的后悔增长为比赛轮数的平方根。只要比较类是多项式级别且我们可以为每个策略计算样本路径的期望值，我们的方法就是有效的。对于一般情况的后悔小的高效算法仍然是一个开放的问题。

Mar, 2013

对抗性多臂老虎机中的延迟和数据的适应

本文考虑在延迟反馈下的敌对多臂老虎机问题，并分析了一些通过仅使用决策时可用的信息 (关于损失和延迟) 来调整步长的 Exp3 算法变体，从而获得适应观察到的 (而不是最坏情况下的) 延迟和 / 或损失序列的遗憾保证。最后，我们介绍了 AdaGrad 风格的版本的算法，该算法通过观察到的 (延迟的) 损失进行适应，而不仅仅是适应于累积延迟 (该算法要求先验上限）。

Oct, 2020

线性马尔可夫决策过程的速率最优策略优化

在线循环线性马尔可夫决策过程中的遗憾最小化与策略优化方法相关联，并且在随机情境下使用自调整速率达到最佳收敛速度，为该领域建立了最佳收敛速度的算法。

Aug, 2023

学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程

通过代表学习、探索和利用等相互交织的方法，本论文以非线性函数逼近和对抗性损失为基础，提出一种 POLO 算法，以实现对低秩马尔可夫决策过程 (Low-rank MDPs) 的次线性遗憾保证。

Nov, 2023

延迟自适应策略优化及基于滞后赌博反馈的对抗 MDP 改进的遗憾

研究 PO 在带有滞后奖励的对抗 MDPs 中的应用，提出 Delay-Adapted PO 算法并得到全新的表格 MDPs 回归界限，在基于线性 Q 函数的无限状态空间和深度 RL 应用中都取得了显著的成果。

May, 2023