BriefGPT.xyz
May, 2019
对抗性马尔科夫决策过程中的在线凸优化
Online Convex Optimization in Adversarial Markov Decision Processes
HTML
PDF
Aviv Rosenberg, Yishay Mansour
TL;DR
本文研究了在线学习在没有循环的马尔可夫决策过程中的应用,提出了基于熵正则化方法实现的在线算法并给出了$\tilde{O}(L|X|\sqrt{|A|T})$的遗憾界,通过处理凸性能标准并改进之前的遗憾界,扩展了对抗性MDP模型,并可以更好地处理单个episode的损失。
Abstract
We consider
online learning
in
episodic loop-free
markov decision processes
(MDPs), where the loss function can change arbitrarily between
→