episodic loop-free | BriefGPT

关键词episodic loop-free

搜索结果 - 1

对抗性马尔科夫决策过程中的在线凸优化
本文研究了在线学习在没有循环的马尔可夫决策过程中的应用，提出了基于熵正则化方法实现的在线算法并给出了 $\tilde {O}(L|X|\sqrt {|A|T})$ 的遗憾界，通过处理凸性能标准并改进之前的遗憾界，扩展了对抗性 MDP 模型，
PDF5 years ago