视觉模型基强化学习中的实体抽象

Oct, 2019

视觉模型基强化学习中的实体抽象

Entity Abstraction in Visual Model-Based Reinforcement Learning

Rishi Veerapaneni, John D. Co-Reyes, Michael Chang, Michael Janner, Chelsea Finn...

TL;DR该论文测试了一种新的模型，可以通过对象之间的本地交互来建模场景，而不是全局建模，从而在泛化到以前未遇到过的组合空间的物理任务时提供巨大的益处。论文提出了一种名为 OP3 的实体为中心的感知、预测和规划的方法，使用它可以预测和规划具有不同数量和配置的对象的模型，没有监督的学习构建实体表示。OP3 通过对每个实体表示的对称处理来强制执行实体抽象，这使得它能够扩展到训练中没有观察到的不同数量和配置的对象上。该方法的主要技术挑战在于将这些实体表示地面化到环境中的实际对象，该论文将该变量绑定问题视为推理问题，并开发了一种交互式推理算法，该算法使用时间连续性和交互式反馈将关于对象属性的信息绑定到实体变量上。在堆叠积木任务中，OP3 泛化到新的积木配置和比训练时观察到的对象更多的对象，表现优于假设具有对象监督能力的 oracle 模型，比不表现实体抽象的最先进视频预测模型的准确率高两到三倍。

Abstract

This paper tests the hypothesis that modeling a scene in terms of entities and their local interactions, as opposed to modeling the scene globally, provides a significant benefit in generalizing to physical tasks in a combinatorial space the learner has not encountered before. We present obje

model-based reinforcement learning probabilistic entity-centric framework object-centric perception entity-abstraction interactive inference algorithm

发现论文，激发创造

基于面向对象预测和规划的物理交互推理

本研究提出了一种无需直接监督对象属性即可实现学习物理场景的物体中心表征的方法，我们的模型通过联合学习感知函数，物理交互函数和渲染函数，可以精确地预测物理变化并具有可操作性的直观物理表现。

Dec, 2018

高效基于实体的强化学习

本文介绍了通过将最近的集合表示形式与图神经网络和槽注意方法相结合来处理结构化数据，从而拓宽深度强化学习算法的应用范围，改善训练时间和鲁棒性，并且证明这种方法可以在多种环境下处理结构化和视觉领域的问题。

Jun, 2022

面向通用机器人学习的深度目标中心表示

本文提出了一种方法来解决复杂开放环境下机器人操作的问题，该方法基于先前训练的通用视觉模型作为感知系统的对象先验，并引入了一个基于对象的注意机制来确定相关对象，通过少数轨迹或演示将这些对象纳入学习策略，使用强化学习可以学习多种操作任务。

Aug, 2017

多级抽象下的面向对象动态学习

本研究提出了一个多层次抽象的物体导向预测器 (MAOP) 的自我监督学习框架，该框架通过三级学习结构实现了从生视觉观察中有效的基于物体的动态学习，并设计了一种空间 - 时间关系推理机制来支持实例级的动态学习和处理部分可见性。结果表明，与以往的方法相比，MAOP 在样本效率和学习环境模型的新环境通用性方面显著优于以前的方法。此外，MAOP 还能够学习具有语义和可视可解释性的去耦合表示，并能在未知环境中实现高效规划。

Apr, 2019

基于物体中心表征的自监督视觉强化学习

该研究提出了使用基于物体的表征作为组成性生成世界模型所学习的模块化和结构化观察空间，以帮助自主代理发现和学习有用的技能，并进一步将这些技能组合起来解决复杂的组合任务。

Nov, 2020

迭代变分推断多物体表示学习

本篇论文探讨了通过学习对象的语义分割和表示方法，从而实现对场景的复原和整合，不需要监督并且具有泛化能力。

Mar, 2019

神经约束满足：层次抽象在物体重新排列中的组合推广

通过构建一个因式分解转换图，将通过像素推断出的实体代表聚类，进而实现对嵌入式代理的物体重新排列的控制，解决到目前为止难以解决的大量实体配置问题。

Mar, 2023

使用物体感知表达式的多物体场景视觉运动控制

本文探索运用物体感知表征学习技术进行机器人任务，自监督学习方法可降低实际世界中收集大量标记数据的成本，该研究展示物体感知表征学习技术在策略学习和物体定位预测方面显著提高了当前技术的效能和表现。

May, 2022

学习对象属性规划

本文提出了一种利用符号规划的方法，采用先前的训练数据自动训练神经网络识别物体属性的方法，并使用规划技术来自动化训练数据集的创建和学习过程。最后，我们在模拟和真实环境中进行了实验评估，结果表明所提出的方法能够成功地学习如何识别新的物体属性。

Jan, 2023

使用主动推理实现以物体为中心的场景表征

本文提出了一种基于层次化对象中心生成模型的场景理解方法，利用神经启发式的行动和感知框架实现了代理的对象类别和姿态的推断，并提出了一个新的基准来评估主动视觉代理的行为，并表明我们的主动推理代理在平衡认知觅食和目标驱动行为方面表现优异，远胜于监督和强化学习基线。

Feb, 2023