Oct, 2019

视觉模型基强化学习中的实体抽象

TL;DR该论文测试了一种新的模型,可以通过对象之间的本地交互来建模场景,而不是全局建模,从而在泛化到以前未遇到过的组合空间的物理任务时提供巨大的益处。论文提出了一种名为 OP3 的实体为中心的感知、预测和规划的方法,使用它可以预测和规划具有不同数量和配置的对象的模型,没有监督的学习构建实体表示。OP3 通过对每个实体表示的对称处理来强制执行实体抽象,这使得它能够扩展到训练中没有观察到的不同数量和配置的对象上。该方法的主要技术挑战在于将这些实体表示地面化到环境中的实际对象,该论文将该变量绑定问题视为推理问题,并开发了一种交互式推理算法,该算法使用时间连续性和交互式反馈将关于对象属性的信息绑定到实体变量上。在堆叠积木任务中,OP3 泛化到新的积木配置和比训练时观察到的对象更多的对象,表现优于假设具有对象监督能力的 oracle 模型,比不表现实体抽象的最先进视频预测模型的准确率高两到三倍。