ICMLJul, 2020

Monte-Carlo 树搜索作为正则化策略优化

TL;DR展示 AlphaZero 的 heuristics 可以近似于规则化策略优化问题的解,并通过提出一种利用此解的变量来实现,实验表明该算法在多个领域中可靠地优于原始算法。