Oct, 2016

异步离线更新下的机器人操作深度强化学习

TL;DR本文介绍一种基于深度 Q 函数算法的深度强化学习方法,能够实现在真实的物理机器人上进行复杂的 3D 操作任务学习,并通过多个机器人异步汇聚优化策略更新等技术进一步提高训练效率。