Oct, 2022

通过椭圆周期性奖励进行探索

TL;DR研究了强化学习(RL)方法在探索复杂环境时的有效性,并引入通过椭圆形周期性奖励探索方法(E3B)以扩展计数周期性奖励至连续状态空间,使用反向动力学模型学习嵌入以捕获环境可控方面,可扩展到高维像素感知和现实环境中。在挑战任务中实现了全新的 state-of-the-art,而不需要特定于任务的归纳偏差,并在稀疏奖励、基于像素的 VizDoom 环境中与现有方法匹配,在 Habitat 上的无奖励探究中优于现有方法。