Oct, 2023

学习和复用原始行为以提高回顾经验重演的样本效率

TL;DR采用前视经验回放(HER)技术,通过利用过去的经验来改进基于强化学习代理训练的目标导向机器人操作任务的采样效率,本文提出了一种使用先前学习的简单任务来引导代理在探索中选择更有益动作的方法。我们通过在多个块操纵任务中与 HER 和其他更高效变体算法性能的对比实验中展示了使用我们提出的方法可以更快地学习有效策略,包括采样效率和计算时间。