使用贝叶斯机器人反馈和未知转移学习对抗性MDP

Dec, 2019

使用贝叶斯机器人反馈和未知转移学习对抗性MDP

Learning Adversarial MDPs with Bandit Feedback and Unknown Transition

Tiancheng Jin, Haipeng Luo

TL;DR本文提出了一种有效的算法，解决了具有未知转移函数、bandit反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题，该算法能够以高概率实现 $\mathcal{\tilde{O}}(L|X|\sqrt{|A|T})$ 的后悔，其中 $L$ 为时间段，$|X|$ 为状态数，$|A|$ 为动作数，而 $T$ 为剧集数。

Abstract

We consider the problem of learning in episodic finite-horizon markov decision processes with unknown transition function,