ICLRJan, 2022

强化学习中的时间协调探索的生成规划

TL;DR通过生成式规划方法可以更有效地进行值最大化的策略优化,从而实现对多步骤动作的生成和增强,进而提高探测效率和行动反应的自适应性。