ICMLJul, 2020
Monte-Carlo 树搜索作为正则化策略优化
Monte-Carlo Tree Search as Regularized Policy Optimization
Jean-Bastien Grill, Florent Altché, Yunhao Tang, Thomas Hubert, Michal Valko...
TL;DR展示 AlphaZero 的 heuristics 可以近似于规则化策略优化问题的解,并通过提出一种利用此解的变量来实现,实验表明该算法在多个领域中可靠地优于原始算法。