Sep, 2022

利用模型预测元推理进行高效的复原学习

TL;DR本文介绍了一种在采样效率高的情况下,通过先在模拟器中探索当前策略的失效模式,然后学习额外的恢复技能以处理这些失效来增加其鲁棒性的通用方法,提出了在线算法MetaReSkill用于监视所有恢复策略的进展,并将学习资源分配给最有可能改善任务表现的恢复;并以开门为例使用我们的方法来学习恢复技能,并对其进行了模拟和实体机器人测试,证明了我们的方法可以将任务成功率从71% 提高到92.4%(模拟中)和75% 提高到90%(实际测试中)