May, 2019

对抗性马尔科夫决策过程中的在线凸优化

TL;DR本文研究了在线学习在没有循环的马尔可夫决策过程中的应用,提出了基于熵正则化方法实现的在线算法并给出了$\tilde{O}(L|X|\sqrt{|A|T})$的遗憾界,通过处理凸性能标准并改进之前的遗憾界,扩展了对抗性MDP模型,并可以更好地处理单个episode的损失。