Oct, 2024

通过隐式规划的逻辑规范组合任务的泛化

TL;DR本研究解决了基于逻辑规范的组合任务泛化政策学习中的问题,尤其是在子目标之间依赖关系和长期任务完成上的挑战。提出了一种新型层次化强化学习框架,并设计了一种隐式规划者来有效选择和估计后续子任务的回报。实验结果表明,该框架在效率和最优性上优于现有方法。