Mar, 2021

深度强化学习下的模型预测行动者 - 评论家算法:加速机器人技能获取

TL;DR介绍了一种基于模型预测控制的混合模型学习和无模型学习方法,名为 MoPAC,通过探索 / 利用以减轻模型偏差,可以实现真实机器人的训练。该方法使用优化轨迹指导策略学习,并且在需要时进行探索。通过实验,MoPAC 方法优于当前最先进的方法,适用于真实机器人的训练,同时为物体夹取、操作和重新夹取等复杂任务提供了一种优化技能学习的解决方案。