IJCAIFeb, 2020

软提示体验回放

TL;DR本文提出了一种基于 HER 和 MERL 的方法 ——SHER,采用失败经验重用和最大熵概率推断模型,用于在具有稀疏奖励的 DRL 环境中进行有效学习,并在 Open AI 机器人操作任务中进行了评估,实验结果表明,相对于 HER 及其变种,我们提出的 SHER 在具有挑战性的手部操作任务中取得了最新的成果,并且稳定性更高,在不同随机种子上实现了非常相似的表现。