Jun, 2024

随机蒙特卡洛树搜索中的功率均值估计

TL;DR通过引入随机 功值平 均估计器的随机功 - UCT 算法,实现在随 机马尔可夫 决策过程中更准确的价值估计,研究其多项式收 敛性和与 Fixed-Depth-MCTS 相同的收 敛速率。