对抗性马尔科夫决策过程中的在线凸优化

May, 2019

Online Convex Optimization in Adversarial Markov Decision Processes

Aviv Rosenberg, Yishay Mansour

TL;DR本文研究了在线学习在没有循环的马尔可夫决策过程中的应用，提出了基于熵正则化方法实现的在线算法并给出了$\tilde{O}(L|X|\sqrt{|A|T})$的遗憾界，通过处理凸性能标准并改进之前的遗憾界，扩展了对抗性MDP模型，并可以更好地处理单个episode的损失。

Abstract

We consider online learning in episodic loop-free markov decision processes (MDPs), where the loss function can change arbitrarily between