- 从图像集合中学习具有状态、姿势和视点变化的物体不变表示
在学习物体的识别和检索的对象表示中,我们将更常用的其他不变性增加了一个不变性 - 状态不变性 - 通过状态不变性,我们的目标是设计一个具有类似能力的神经架构,以捕捉到物体形状结构变化时的鲁棒性。为了实现这一目标,我们提出了一个新颖的数据集, - 通过预测学习三维物体为中心的表示
利用仅依赖于大脑可访问的信息进行训练的图像序列和自我运动,我们开发了一种新颖的网络架构,能够同时学习从离散图像中分割对象、推断其三维位置和感知深度,从而作为预测学习的副产品有效地学习对象的表示。
- STF:时空融合模块提升视频目标检测
通过利用视频中连续帧的冗余和相关的互补信息,我们提出了一个时空融合框架,其中包括多帧和单帧关注模块,以及可学习地合并特征图以改进物体检测性能的双帧融合模块。实验证明,该融合模块相比基线物体检测器能够提高检测性能。
- CrIBo:跨图像对象级自监督学习
通过利用最近邻检索来进行自监督表示学习在以物体为中心的图像中已被证明具有益处。然而,当应用于以场景为中心的数据集时,这种方法面临限制,其中图像中的多个物体仅在全局表示中隐含捕获。这种全局引导可能导致对象表示的不可取缠结。此外,即使以物体为中 - SlotGNN:无监督发现多物体表示和视觉动态
利用无监督技术从视觉数据中学习多对象动态是一项具有挑战性的任务。本文提出一种新的框架,通过机器人交互学习可以学到稳健的对象表示的两个新架构:SlotTransport 用于从 RGB 图像中发现对象表示,SlotGNN 用于从 RGB 图像 - ICCV视频目标检测的一致身份聚合
本文提出了一种使用 Identity-Consistent Aggregation (ICA) 层的 VID 模型 ClipVID,旨在改善 Video Object Detection 中的对象表示和处理对象外观变化。在 ImageNet - 在具身模拟中通过相似性学习基于概念的词汇的内涵和区分
我们提出了一种新方法,利用通过具身模拟收集的代理经验来将情境化词向量与对象表示相关联,并使用相似性学习来比较不同对象类型之间的相似性,显示出不同转换器模型的嵌入空间的特性,以及用于嵌入对象令牌向量比用于嵌入动词和属性令牌向量更有帮助。
- 物体类别感知强化学习
本篇论文提出了一种新的框架 ——OCARL,通过利用对象的类别信息来促进感知和推理,包括三部分:具有类别感知能力的无监督对象发现,具有对象类别感知能力的感知以及采用多个独立的对象 - 类别特定网络进行推理的对象中心模块化推理。实验表明,在对 - NeROIC:从在线图像集合中的物体进行神经渲染
本文介绍了一种从在线图像收藏中获取物体表征的新方法,捕捉了照片中任意物体的高质量几何和材料属性,利用神经辐射场扩展多阶段方法推断表面几何,提取表面材料属性和环境照明,形成高效的对象获取框架。
- CVPR针对检索的目标感知视频语言预训练
本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers,使用边界框和物体标签来引导训练过程,将对象表示法引入视频 - 语言架构中,从而提高了视频文本匹配任务的性能。
- 用于视频理解的统一图结构模型
本文提出了一种基于信息传递的图神经网络,能够精确理解视频中行为者、对象和环境之间的关系,在显式表示对象时能够使用显式表示,否则使用隐含表示;在 AVA 和 UCF101-24 的时空行为检测以及最近的 Action Genome 数据集上的 - 通过对比集合学习面向对象的视频模型
通过引入全局、基于集合的对比损失和基于注意力的编码器,将个体目标表示相互对比更改为聚合表示并相互对比,从而在自监督学习中更有效地推动物体中心表示的出现,并在两个合成视频数据集上得到更好的效果。
- 全面跟踪物体表征
该研究提出了一种建立完整物体表示进行跟踪的框架,通过使用多样的物体模板和差异度计量法,可以提高跟踪性能和健壮性,而不降低速度,并适用于需要视觉理解对象的进一步任务。
- 基于无监督学习的目标关键点感知与控制
本研究旨在学习控制和强化学习(RL)有用的对象表示。我们介绍了 Transporter,这是一种神经网络体系结构,用于以关键点或图像空间坐标的形式发现简明的几何对象表示。