Jun, 2020

POLY-HOOT:在连续空间MDPs中进行蒙特卡罗规划的非渐近分析

TL;DR本文提出了一种算法 POLY-HOOT,将连续武装匪徒策略与 Monte-Carlo Tree Search(MCTS)相结合,使用多项式奖励项来增强 HOO 算法,并分析其在非静态匪徒问题中的后悔率和收敛性。