IJCAIDec, 2019
蒙特卡罗树搜索用于策略优化
Monte-Carlo Tree Search for Policy Optimization
Xiaobai Ma, Katherine Driggs-Campbell, Zongzhang Zhang, Mykel J. Kochenderfer
TL;DR本文提出了一种基于蒙特卡罗树搜索和无梯度优化的策略优化方法,称为 MCTSPO,通过使用上界置信度启发式获得更好的探索 - 利用平衡,相对于基于梯度和深度遗传算法的基准,在具有欺骗性或稀疏奖励函数的强化学习任务中表现更佳。