Sep, 2019

使用基于物理环境的状态表示学习对物体集合进行操作

TL;DR提出了一种基于模拟器状态信息用于面向多物体的机器人学习的方法:通过训练一对编码器网络来捕捉潜变量空间中的多物体状态信息,其中一个编码器是卷积神经网络,另一个是图神经网络状态编码器,这使得我们的系统能够操作现实世界中的 RGB 图像,有效地进行多物体操纵的强化学习训练,取得比传统基于图像或固定长度状态编码的方法更高的成功率,在不调参的情况下也在真实世界中表现良好,并且泛化到在训练时未见过的不同数量和类型的物体。