AAAISep, 2018

如何在强化学习中结合树搜索方法

TL;DR研究了强化学习中的有限时间先见策略,提出使用树路径回报备份根节点后代的值来增强现有方法,以解决值函数传播不收缩的问题。