Designing rewards for reinforcement learning (RL) is challenging because it
needs to convey the desired task, be efficient to optimize, and be easy to
compute. The latter is particularly problematic when applying RL to
采用前视经验回放(HER)技术,通过利用过去的经验来改进基于强化学习代理训练的目标导向机器人操作任务的采样效率,本文提出了一种使用先前学习的简单任务来引导代理在探索中选择更有益动作的方法。我们通过在多个块操纵任务中与 HER 和其他更高效变体算法性能的对比实验中展示了使用我们提出的方法可以更快地学习有效策略,包括采样效率和计算时间。
本文提出了一种基于 HER 和 MERL 的方法 ——SHER,采用失败经验重用和最大熵概率推断模型,用于在具有稀疏奖励的 DRL 环境中进行有效学习,并在 Open AI 机器人操作任务中进行了评估,实验结果表明,相对于 HER 及其变种,我们提出的 SHER 在具有挑战性的手部操作任务中取得了最新的成果,并且稳定性更高,在不同随机种子上实现了非常相似的表现。