Oct, 2017

DDCO: 从示范中发现深度连续操作的机器人学习

TL;DR本文介绍了 Discovery of Deep Continuous Options (DDCO)算法,这是一种针对机器人模仿学习的扩展型深度发现选项(DDO)算法,通过学习从示例中获得的深度神经网络参数化的低级连续控制技能。我们通过混合范畴 - 连续分布模型来扩展 DDO,以参数化可以调用离散选项以及连续控制动作的高级策略,并使用交叉验证方法减少 DDO 需要使用的选项数量指定,通过实验验证了 DDCO 算法的有效性。