视频的推理增强的物体中心学习

Mar, 2024

Reasoning-Enhanced Object-Centric Learning for Videos

Jian Li, Pu Ren, Yang Liu, Hao Sun

TL;DR通过设计一种名为 STATM 的新型推理模块，可以显著增强基于插槽的视频模型的物体中心学习能力。

Abstract

object-centric learning aims to break down complex visual scenes into more manageable object representations, enhancing the understanding and reasoning abilities of machine learning systems toward the physical world. Recently, →

object-centric learning reasoning module slot-based video models perception ability statm

发现论文，激发创造

基于插槽注意力的目标中心学习

本文提出了一个名为 Slot Attention 的架构组件，它能够从低级感知特征中提取物体为中心的表示，并能够推广到未见组合。

Jun, 2020

基于条件的视频目标中心学习

该论文提出了一种弱监督学习方法，以对象为中心的表示和光流条件模型，可提高现实数据下的实例分割和追踪效果，改进了查询模型的灵活性，并扩展了应用范围。

Nov, 2021

面向复杂和自然视频的简单无监督物体中心学习

提出了 STEVE，一种基于无监督学习的视频物体聚焦模型，通过使用基于 Transformer 的图像解码器进行重建观察来实现了对复杂和自然视频的有效性验证，并取得了显著的改进效果。

May, 2022

神经符号化视频搜索

使用视觉语言模型进行语义理解，通过状态机和时间逻辑进行长期演变的事件推理，提高了复杂事件识别的 F1 得分。

Mar, 2024

目标检测中的上下文推理空间记忆

本文提出了一种新的时空记忆网络 (Spatial Memory Network) 框架，其中空间记忆将目标实例聚合回代表简单 “图像” 的伪图像表示，易于输入到另一个 ConvNet 中进行目标间上下文推理，使得目标检测性能提高了 2.2％。

Apr, 2017

优化查询以改善对象中心学习

本论文提出了一种新方法 Bi-level Optimized Query Slot Attention，利用可学习的查询初始化 Slot-Attention，配合双层优化方法，实现了在无监督图像分割和重构中最先进的结果，并展示了其在概念绑定和零样本学习中的巨大潜力。

Oct, 2022

学习如何在视觉对象上进行推理

探究对象为中心的编码器和变换推理模块是否能提高图像推理任务的效果，并发现其比传统以 Raven 智力测试为基础的任务特定归纳偏见更全面适用。

Mar, 2023

通过学习目标嵌入进行注意力，实现复杂的视觉推理

该文介绍了一种基于神经网络的动态视觉推理问题的更通用方法，通过学习物体中心表示、自我关注和自监督动力学学习，以实现三个不同领域的最先进表现，在每种情况下都优于针对任务特定定制的专用模块化方法。

Dec, 2020

基于对象的学习与槽混合模块

本研究提出一种基于高斯混合模型的可学习聚类方法，将物体中心化情景建模，显著优于 Slot Attention 方法，在集合属性预测任务中取得了最先进的效果。

Nov, 2023

视而不见，仍在脑海中：基于视频追踪启用记忆模型的未被观察到的物体的推理与规划

通过将变形器关系动力学用于部分视图点云和物体发现和跟踪引擎，我们提出了 DOOM 和 LOOM，旨在将面向对象的记忆编码到多物体操纵推理和规划框架中，以实现机器人在真实环境中可靠地处理先前观察但当前被遮挡的物体的问题，并成功实现了包括处理遮挡物体、新物体出现和物体再出现在内的多个具有挑战性的任务。通过大量的仿真和真实世界实验，我们发现我们的方法在不同数量的物体和干扰动作数量方面表现良好，并且超过了隐式记忆基准。

Sep, 2023