Oct, 2023

优先软 Q 分解用于词典式强化学习

TL;DR通过在连续空间的基础上处理优先级子任务,我们提出了一种用于学习和调整子任务解决方案的新算法 PSQD,允许重复使用先前学到的子任务解决方案,并通过融合和调整来满足任务优先级约束。