马尔科夫决策过程中基于对手选择转移概率分布的在线学习

Mar, 2013

马尔科夫决策过程中基于对手选择转移概率分布的在线学习

Online Learning in Markov Decision Processes with Adversarially Chosen Transition Probability Distributions

Yasin Abbasi-Yadkori, Peter L. Bartlett, Csaba Szepesvari

TL;DR研究了在转换概率分布和损失函数是对手选择并随时间变化时，如何学习具有有限状态和动作空间的马尔可夫决策过程问题。介绍了一种算法，如果转换概率满足均匀混合条件，则任何比较类中的策略的后悔增长为比赛轮数的平方根。只要比较类是多项式级别且我们可以为每个策略计算样本路径的期望值，我们的方法就是有效的。对于一般情况的后悔小的高效算法仍然是一个开放的问题。

Abstract

We study the problem of learning markov decision processes with finite state and action spaces when the transition probability distributions and loss functions are chosen adversarially and are allowed to change with time. We introduce an algorithm whose regret with respect to any polic

markov decision processes adversarial learning regret minimization uniform mixing condition sample path expectations

发现论文，激发创造

对抗性马尔科夫决策过程中的在线凸优化

本文研究了在线学习在没有循环的马尔可夫决策过程中的应用，提出了基于熵正则化方法实现的在线算法并给出了 $\tilde {O}(L|X|\sqrt {|A|T})$ 的遗憾界，通过处理凸性能标准并改进之前的遗憾界，扩展了对抗性 MDP 模型，并可以更好地处理单个 episode 的损失。

May, 2019

具有延迟反馈的对抗性马尔可夫决策过程学习

本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Dec, 2020

核化马尔科夫决策过程中的在线学习

研究了采用非参数高斯过程先验的 UCRL 和后验抽样算法的在线学习方法在未知的连续状态和动作的马尔可夫决策过程中最小化后悔的问题，在频率设置下，通过对核函数诱导的函数的再生核希尔伯特空间的真实 MDP 的转移和奖励函数的成员进行变异，研究了这些算法的后悔边界问题，并突出了转移和奖励函数对学习性能的影响。

May, 2018

无悔在线强化学习中的对抗损失和转换

本篇论文提出了一种在线学习算法，能够同时应对恶意对手的损失函数和状态转移，并且随着对手的恶意程度而平稳地增加遗憾，同时采用黑盒约简方法达到无需先验知识的效果。此外，本文还对算法进行了改进，在生成损失的环境易于控制的情况下可以实现较小的遗憾。

May, 2023

学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程

通过代表学习、探索和利用等相互交织的方法，本论文以非线性函数逼近和对抗性损失为基础，提出一种 POLO 算法，以实现对低秩马尔可夫决策过程 (Low-rank MDPs) 的次线性遗憾保证。

Nov, 2023

带有侧面信息的 MDPs 在线学习

本文提出了一种在线学习算法，使用有限马尔可夫决策过程解决了具有临床试验和推荐系统的应用方案的问题，该算法可以在计算效率上得到提升，并且在此设置下的后悔度最多为 O (√T)。

Jun, 2014

带有对抗奖励和赌徒反馈的确定性马尔可夫决策过程

本文提出了一种高效的在线决策算法 MarcoPolo，用于处理具有确定性状态转移动态、对抗生成的奖励和旁观者反馈模型的 Markov 决策过程，并证明该算法满足 O (T^(3/4) sqrt (log (T))) 的遗憾边界。

Oct, 2012

线性马尔可夫决策过程低切换成本可证效率算法

本文着重于线性马尔可夫决策过程（MDP）问题中的低转换成本，并提出了第一个具有低转换成本的线性 MDP 算法，同时通过低转换成本较小而达到了大体积的泛化。

Jan, 2021

使用贝叶斯机器人反馈和未知转移学习对抗性 MDP

本文提出了一种有效的算法，解决了具有未知转移函数、bandit 反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题，该算法能够以高概率实现 $\mathcal {\tilde {O}}(L|X|\sqrt {|A|T})$ 的后悔，其中 $L$ 为时间段，$|X|$ 为状态数，$|A|$ 为动作数，而 $T$ 为剧集数。

Dec, 2019

学习未知马尔可夫决策过程：一种汤普森抽样方法

本文提出了一种基于贝叶斯的 Thompson Sampling 加持的动态时段算法 (TSDE)，尝试在无限的时间尺度内解决了一个学习未知 MDP 的问题，实现了很好的性能并达到了理论界限。

Sep, 2017