Dec, 2019

使用贝叶斯机器人反馈和未知转移学习对抗性 MDP

TL;DR本文提出了一种有效的算法,解决了具有未知转移函数、bandit 反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题,该算法能够以高概率实现 $\mathcal {\tilde {O}}(L|X|\sqrt {|A|T})$ 的后悔,其中 $L$ 为时间段,$|X|$ 为状态数,$|A|$ 为动作数,而 $T$ 为剧集数。