ICLRAug, 2022

紧凑潜在动作空间中的有效规划

TL;DR该论文提出了一种基于 Trajectory Autoencoding Planner (TAP) 的规划算法,通过使用低维潜在动作编码和状态条件 VQ-VAE 模型,以及搜索离散的潜在动作来发现高累积奖励可能性的轨迹,并在高维持续行为空间中超越了现有的模型和策略的基线结果。