BriefGPT.xyz
Ask
alpha
关键词
episodic loop-free
搜索结果 - 1
对抗性马尔科夫决策过程中的在线凸优化
本文研究了在线学习在没有循环的马尔可夫决策过程中的应用,提出了基于熵正则化方法实现的在线算法并给出了 $\tilde {O}(L|X|\sqrt {|A|T})$ 的遗憾界,通过处理凸性能标准并改进之前的遗憾界,扩展了对抗性 MDP 模型,
→
PDF
5 years ago
Prev
Next