IJCAIApr, 2022

PG3: 通用策略生成的策略引导规划

TL;DR本论文关注基于广义策略搜索的方法,提出了 Score function 的限制,并提出了能够克服这些限制的 Policy-Guided Planning for Generalized Policy Generation (PG3),该论文在六种不同的领域进行实验,结果证明 PG3 比其他基线更有效地学习了泛化策略。