- CVPR自适应槽注意力机制:动态槽位目标发现
基于对象的学习(OCL)通过使用槽来提取对象的表征,提供了灵活性和可解释性的卓越结合,以抽象化低级感知特征。在 OCL 中被广泛采用的方法是槽注意机制,它利用注意机制迭代地改进槽的表示。然而,大多数基于对象的模型,包括槽注意机制,在很大程度 - 掩码式多查询槽注意力用于无监督对象发现
通过利用 DINO ViT 特征的集合查询表示来重建输入特征,我们提出了一种基于物体为中心的方法,通过遮罩输入特征,有选择性地忽略背景区域,以便模型在重建阶段更关注显著对象。此外,我们将 slot attention 拓展为多查询方法,使模 - CVPR多光源白平衡的关注光照分解模型
提出了一种基于插槽注意力的深度白平衡模型,能够生成具有多个不同色度的照明源的色度和权重图,从而提供了场景中照明源的数量和色度,进而实现了前所未有的照明编辑能力。
- DEVIAS: 为整体视频理解学习动作和场景的脱缰视频表示
通过 Disentangled VIdeo representations of Action and Scene (DEVIAS) 提出了一种细分行动和场景表示的方法,利用 slot attention 和辅助任务来有效提高视频理解性能。
- 动作 - 插槽:交通场景中的多标签原子活动识别的视觉动作中心表示
我们研究了多标签原子活动识别,引入了基于槽的关注方法来学习视觉的动作中心表示,并通过在 TACO 数据集上进行预训练来提高多标签原子活动识别在真实数据集中的性能。
- 基于对象的学习与槽混合模块
本研究提出一种基于高斯混合模型的可学习聚类方法,将物体中心化情景建模,显著优于 Slot Attention 方法,在集合属性预测任务中取得了最先进的效果。
- SlotGNN:无监督发现多物体表示和视觉动态
利用无监督技术从视觉数据中学习多对象动态是一项具有挑战性的任务。本文提出一种新的框架,通过机器人交互学习可以学到稳健的对象表示的两个新架构:SlotTransport 用于从 RGB 图像中发现对象表示,SlotGNN 用于从 RGB 图像 - ICCV语义与时间关联:视频中自监督目标中心学习
自我监督方法在学习高层语义和低层时间对应方面取得了显著进展,本文在此基础上进一步探索了整合这两个特征以增强以对象为中心的表示的可能性。我们提出了一种新颖的语义感知遮蔽插槽注意力模型,通过融合语义特征和对应关系图,有效地识别多个对象实例,达到 - 无监督的条件槽注意力用于对象为中心的学习
本研究提出了一种基于无监督条件化槽注意力和概率槽字典(PSD)的方法,利用抽象的物体属性向量作为关键字、参数化高斯分布作为相应值,来学习特定的物体级别条件分布,并在多个下游任务中展示了其在物体发现、组合场景生成和组合视觉推理方面的优势。在物 - 基于 Slot Attention 的物体中心场景生成
提出了一种将 slot attention 与分层 VAE 框架结合的生成模型 Slot-VAE,其能够生成具有高质量和准确的场景结构的样本效果优于基于 slot attention 的生成模型。
- CVPRGeoVLN:使用槽注意力学习几何增强的视觉表征,用于视觉语言导航
GeoVLN 提出了一种几何加强的视觉表示学习方法,基于 Slot Attention 技术和 V&L BERT 模型结合自然语言和多种视觉输入信息实现了强大的视觉和语言导航功能,取得了很好的实验效果。
- 对象为中心的表示、引导注意力和外部记忆对视觉关系泛化的作用
本研究系统评估了深度神经网络(DNN)在视觉推理任务中的应用,发现虽然某些模型表现出在某些特定类型的图像上函数良好,但没有一个模型能够有效地推广到所有情况下,从而得出抽象视觉推理仍然是 DNN 面临的主要挑战。
- 高效基于实体的强化学习
本文介绍了通过将最近的集合表示形式与图神经网络和槽注意方法相结合来处理结构化数据,从而拓宽深度强化学习算法的应用范围,改善训练时间和鲁棒性,并且证明这种方法可以在多种环境下处理结构化和视觉领域的问题。