视频的推理增强的物体中心学习
提出了 STEVE,一种基于无监督学习的视频物体聚焦模型,通过使用基于 Transformer 的图像解码器进行重建观察来实现了对复杂和自然视频的有效性验证,并取得了显著的改进效果。
May, 2022
本文提出了一种新的时空记忆网络 (Spatial Memory Network) 框架,其中空间记忆将目标实例聚合回代表简单 “图像” 的伪图像表示,易于输入到另一个 ConvNet 中进行目标间上下文推理,使得目标检测性能提高了 2.2%。
Apr, 2017
本论文提出了一种新方法 Bi-level Optimized Query Slot Attention,利用可学习的查询初始化 Slot-Attention,配合双层优化方法,实现了在无监督图像分割和重构中最先进的结果,并展示了其在概念绑定和零样本学习中的巨大潜力。
Oct, 2022
该文介绍了一种基于神经网络的动态视觉推理问题的更通用方法,通过学习物体中心表示、自我关注和自监督动力学学习,以实现三个不同领域的最先进表现,在每种情况下都优于针对任务特定定制的专用模块化方法。
Dec, 2020
本研究提出一种基于高斯混合模型的可学习聚类方法,将物体中心化情景建模,显著优于 Slot Attention 方法,在集合属性预测任务中取得了最先进的效果。
Nov, 2023
通过将变形器关系动力学用于部分视图点云和物体发现和跟踪引擎,我们提出了 DOOM 和 LOOM,旨在将面向对象的记忆编码到多物体操纵推理和规划框架中,以实现机器人在真实环境中可靠地处理先前观察但当前被遮挡的物体的问题,并成功实现了包括处理遮挡物体、新物体出现和物体再出现在内的多个具有挑战性的任务。通过大量的仿真和真实世界实验,我们发现我们的方法在不同数量的物体和干扰动作数量方面表现良好,并且超过了隐式记忆基准。
Sep, 2023