May, 2019

对抗性马尔科夫决策过程中的在线凸优化

TL;DR本文研究了在线学习在没有循环的马尔可夫决策过程中的应用,提出了基于熵正则化方法实现的在线算法并给出了 $\tilde {O}(L|X|\sqrt {|A|T})$ 的遗憾界,通过处理凸性能标准并改进之前的遗憾界,扩展了对抗性 MDP 模型,并可以更好地处理单个 episode 的损失。