- CVPR自适应槽注意力机制:动态槽位目标发现
基于对象的学习(OCL)通过使用槽来提取对象的表征,提供了灵活性和可解释性的卓越结合,以抽象化低级感知特征。在 OCL 中被广泛采用的方法是槽注意机制,它利用注意机制迭代地改进槽的表示。然而,大多数基于对象的模型,包括槽注意机制,在很大程度 - 通过反向层级引导学习物体中心表示
提出了一种引入自顶向下路径的反层次指导网络(Reverse Hierarchy Guided Network),该网络在训练和推理过程中采用不同的方式,通过自顶向下的特征引导底层特征,同时将底层特征纳入感知过程,从而实现了性能优于其他模型的 - 学习组合:通过注入组合性提高对象中心学习
学习组合表示是目标为中心的学习的关键方面,它实现了灵活的系统化推广并支持复杂的视觉推理。然而,大多数现有方法依赖于自编码目标,而复杂性通常是由编码器中的架构或算法偏差隐含地施加的。本研究中,我们提出了一种新的目标,明确促进这些表示的复杂性。 - 视频的推理增强的物体中心学习
通过设计一种名为 STATM 的新型推理模块,可以显著增强基于插槽的视频模型的物体中心学习能力。
- 手术场景的潜在图表示优化及零样本领域转移
通过多中心性能基准测试,我们研究了面向未见域泛化的以目标为中心的方法,确定了关键的性能因素,并提出了一种优化方法,明显优于现有方法。
- 音频中无监督的音乐对象发现
我们提出了一种新的方法,将 SlotAttention 结构应用于音频领域,实现了无监督的音乐分解。我们介绍了一个基于频谱图的多对象音乐数据集,用于评估西方调性音乐上的对象中心学习。MusicSlots 在无监督的音符发现上表现良好,并在监 - 面向对象的架构实现高效因果表示学习
利用因果表征学习和面向物体的学习相结合,通过修改 Slot Attention 架构,开发出了一种利用稀疏扰动进行弱监督的物体中心化架构,以更少的扰动成功解缠多个物体的属性。
- 迈向可解释的目标中心学习的可控性
通过引入自增强图像策略的槽位注意力方法(SlotAug),本文探索了一种学习可解释的自控槽位的可能性,在计算机视觉领域中的物体中心学习(OCL)的研究中取得了显著的进展,并且通过引入辅助身份操作和槽位一致性损失,提出了可控槽位的可持续性概念 - 视频的自监督目标中心学习
本文提出了第一个完全无监督的方法,用于在真实场景的序列中分割多个对象,通过空间绑定对象并将这些槽联系起来,在高级语义特征空间中重建中间帧,解决了效率和规范化问题,成功地在 YouTube 视频中分割了复杂且多变的类别的多个实例。
- 通过预测时间特征相似性实现面向实际世界视频的对象中心学习
本文提出了一种基于无监督学习、自主学习特征的物体中心学习方法,以及如何使用时间特征相似性损失来发现运动目标,并在视频数据集上取得了最先进的表现。
- ICLRSlotDiffusion: 以扩散模型实现以物体为中心的生成建模
本研究聚焦于提高物体图像生成的关键点到图像解码,为了达到高质量的视觉生成,提出了一种基于对象中心潜在扩散模型 SlotDiffusion,该模型在六个数据集上表现优异,并可用于现有的用于视频预测质量和下游时间推理任务的对象中心动力学模型,同 - ICML从像素中发现基于物体的广义值函数
本文提出了一种基于对象的方法,试图从对象中发现有意义的特征,将其转化为具有时间相关性的 “指导” 函数,并利用随后学习到的一般价值函数进行控制,并且通过定性分析表明,学习到的表示不仅可解释而且围绕着任务之间不变的对象,从而促进了快速适应。
- ICLR优化查询以改善对象中心学习
本论文提出了一种新方法 Bi-level Optimized Query Slot Attention,利用可学习的查询初始化 Slot-Attention,配合双层优化方法,实现了在无监督图像分割和重构中最先进的结果,并展示了其在概念绑定 - SAVi++:面向真实世界视频的端到端物体中心学习
SAVi++ 是一种基于深度信号的物体中心视频模型,可以通过对复杂的动态场景进行对象分割和跟踪。
- 面向复杂和自然视频的简单无监督物体中心学习
提出了 STEVE,一种基于无监督学习的视频物体聚焦模型,通过使用基于 Transformer 的图像解码器进行重建观察来实现了对复杂和自然视频的有效性验证,并取得了显著的改进效果。
- Slot-VPS:视频全景分割的面向对象表示学习
该论文提出了 Slot-VPS 框架,使用对象中心学习的方法,将所有视频中的 panoptic 实体编码成 panoptic slots,通过 Video Panoptic Retriever 来检索和编码统一的空间 - 时间信息,实现了对