Oct, 2023

CQM:基于量化世界模型的课程强化学习

TL;DR我们提出了一种新的课程方法,通过自动定义语义目标空间以及在其上提出课程目标来缓解以往方法在高维度空间中生成课程目标时遇到的挑战,并改善课程的可伸缩性。我们通过向量量化变分自动编码器 (VQ-VAE) 将连续观测离散化,并通过图形恢复离散观测之间的时序关系。同时,我们提出了考虑不确定性和时间距离的课程目标,这些目标能够收敛到自动组合的目标空间的最终目标。我们证明了该方法仅仅通过原始目标示例就能在未知环境中实现高效探索,且在各种目标达成任务中,甚至使用自我中心视觉输入时,该方法在数据效率和性能上都优于最先进的课程增强学习方法。