Jun, 2018

生成对抗树搜索的惊人负面结果

TL;DR本文研究了深度生成模型在强化学习环境中的设计,并提出了一种基于生成对抗树搜索和蒙特卡罗树搜索的算法 GATS。GATS 在学习环境模型后,在树搜索中实现了 MCTS,并使用深度 Q 网络学习 Q 函数。然而,实验结果表明,GATS 并未能超越 DQN,作者分析了深度限制 MCTS 失败的原因。