- 无监督物体本体运动动力学预测
我们提出了一种名为 Object-Centric Kinematics (OCK) 的动态预测框架,利用了对象为中心的表示方法,并通过各种转换机制进行综合,以实现有效的对象为中心的动态建模。该模型在处理复杂场景中的对象和背景时表现出卓越的性 - 由 “什么” 和 “在哪里” 基础模型组合预训练的面向目标的机器人表示
通过预训练建立的 POCR 框架在机器人控制中能够提供更好的性能和系统化的泛化能力,而不需要新的训练。
- 具有 Siamese 裁剪遮罩自编码器的高效图像预训练
CropMAE 是一种替代 SiamMAE 的 Siamese 预训练方法,通过仅考虑从同一图像裁剪而来的图像对,而不是从视频中提取的帧对,从而减少了对视频数据集的需求,同时保持了竞争性能,并大幅减少了预训练时间。此外,CropMAE 证明 - 旋转特征中的绑定动态
本文探讨了机器学习中的物体集中表示问题及旋转特征的一种新的连接机制,利用余弦绑定机制来计算特征之间的对齐并相应地调整权重,从而实现与自我关注和生物神经过程的直接联系,揭示了旋转特征中产生物体集中表示的基本动力学。
- 目标中心学习中的明确解耦表示
从原始视觉数据中提取结构化表示是机器学习中一个重要且长期存在的挑战。最近,无监督学习目标为客观中心化表示的技术引起了越来越多的关注。本文提出了一种新颖的架构,通过在潜在空间维度的两个不重叠的子集中偏置客观中心化模型,以将形状和纹理成分分离开 - 以物体为中心的视频表示对长期行动预测
本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示,通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - - 可证明的物体为中心学习的组合概括
通过可识别性理论的视角,我们研究了何时可以保证物体中心表示在组合泛化中保证可补全一致性,通过合成图像数据的实验验证了我们的理论结果和假设的实践相关性。
- 通过基于聚类的插槽初始化提升可解释的对象抽象
我们的工作使用聚类算法对感知输入特征进行初始化,设计了置换不变和置换等变版本的插槽初始化层,并利用均值漂移聚类自动确定给定场景的插槽数量。在各种数据集上进行对象发现和新视角合成任务的评估结果显示,我们的方法在复杂场景下始终表现优于先前的工作 - ICCV语义与时间关联:视频中自监督目标中心学习
自我监督方法在学习高层语义和低层时间对应方面取得了显著进展,本文在此基础上进一步探索了整合这两个特征以增强以对象为中心的表示的可能性。我们提出了一种新颖的语义感知遮蔽插槽注意力模型,通过融合语义特征和对应关系图,有效地识别多个对象实例,达到 - CVPR将视觉与运动联系起来,实现自监督的以物为中心的感知
本研究采用自监督的物体中心视觉模型,只使用 RGB 视频和车辆姿态作为输入,实现了物体分解,并在 Waymo 开放感知数据集上展示了正面的结果。
- 物体为中心的关系抽象的系统性视觉推理
该研究描述了 Object-Centric Relational Abstraction(OCRA) 模型,其结合了具有抽象表征能力的目标提取和针对关系的归纳偏差,能够从图像输入中提取显式的对象和抽象关系,实现了关于复杂视觉展示的强系统化概 - 旋转特征用于物体发现
本文提出了旋转特征作为高维度中的复数特征的一种推广,并使用新的评估程序提取分布式表示中的对象,以更好地解决机器学习中的连接问题。
- 基于槽位的物体中心模型对槽位数量的敏感性研究
在本研究中,我们通过对基于槽的方法进行系统研究,以解决槽的数量选择对学习对象相关表示的影响问题,我们发现槽的数量选错会导致过度或不足分割的问题,并探讨了目标函数和注释实例级别等因素对改善问题的影响。
- 孪生掩模自编码器
本文提出了基于 SiamMAE 的 Siamese Masked Autoencoders 方法,使用视频学习视觉对应关系,通过对大量补丁进行遮罩,鼓励网络集中学习运动对象和学习以对象为中心的表示。该方法可以在不依赖数据增强或用于防止表示崩 - 关于学习结构化表示的泛化
本文旨在研究用结构性表示学习的方法,具体分为解缠结表示与面向对象表示两个方向,以实现从非结构化数据中提取潜在结构信息的目的,同时还探讨了该方法对预训练表示和下游任务泛化能力的提升以及其对于大规模数据的高效表征学习的应用。
- 物体中心的深度主动推理模型中的对称性与复杂性
本篇论文探讨了使用主动推理方法中生成模型的潜在空间中如何出现特定物体的内在对称性,重点关注物体中心表示法,并借助主成分分析技术展示了模型在潜在空间中编码了物体主对称轴,最后指出更对称表示法的利用有助于操作任务的更好泛化。
- CVPR基于物体中心预测模型的内在物理概念发现
本文介绍了一个无需监督训练的系统 PHYsical Concepts Inference NEtwork (PHYCINE),该系统可以发现和表示物理概念,包括物质和电荷,并且使用这些变量来获得比仅使用可见对象特征更好的因果推理性能。
- 因果三元组:基于干预中心因果表示学习的开放挑战
本文提出了 Causal Triplet 方法,作为因果表示学习的基准,识别潜在的结构是一个具有挑战性和机遇的问题,该任务包括可操作的反事实设置和强调分布鲁棒性的干预下游任务。
- ICLRSlotFormer: 使用以物体为中心的模型进行无监督视觉动态模拟
本文介绍了一种基于 SlotFormer 的 Transformer 自回归模型,利用学习到的目标中心表示来模拟物体间的关系,成功地应用于视频预测和 VQA 等多个领域,并表明它作为模型为基础的规划世界模型的能力与针对该任务专门设计的方法相 - ICLR连接现实世界物体中心学习的鸿沟
该研究提出了一种无监督学习的方法,即利用自监督训练的模型来重构特征,从而在完全无监督的情况下出现物体为中心的表示形式,在模拟数据和实际数据集上表现良好,显示出竞争力。