BriefGPT.xyz
Dec, 2019
使用贝叶斯机器人反馈和未知转移学习对抗性MDP
Learning Adversarial MDPs with Bandit Feedback and Unknown Transition
HTML
PDF
Tiancheng Jin, Haipeng Luo
TL;DR
本文提出了一种有效的算法,解决了具有未知转移函数、bandit反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题,该算法能够以高概率实现 $\mathcal{\tilde{O}}(L|X|\sqrt{|A|T})$ 的后悔,其中 $L$ 为时间段,$|X|$ 为状态数,$|A|$ 为动作数,而 $T$ 为剧集数。
Abstract
We consider the problem of
learning
in episodic finite-horizon
markov decision processes
with unknown
transition function
,
→