IJCAIApr, 2022
PG3: 通用策略生成的策略引导规划
PG3: Policy-Guided Planning for Generalized Policy Generation
Ryan Yang, Tom Silver, Aidan Curtis, Tomas Lozano-Perez, Leslie Pack Kaelbling
TL;DR本论文关注基于广义策略搜索的方法,提出了 Score function 的限制,并提出了能够克服这些限制的 Policy-Guided Planning for Generalized Policy Generation (PG3),该论文在六种不同的领域进行实验,结果证明 PG3 比其他基线更有效地学习了泛化策略。