May, 2023

经典规划中基于尺度自适应的探索与利用平衡

TL;DR提出了一种基于 UCB1-Normal 赌博机算法的 MCTS / THTS(Monte Carlo Tree Search / Trial Based Heuristic Tree Search)算法,该算法可以处理具有不同尺度的奖励分布,在经典计划中使用有更好的性能表现。