- CVPR多智能体多遍历多模态自动驾驶:开放 MARS 数据集
通过与自动驾驶公司 May Mobility 的合作,我们提出了 MARS 数据集,它统合了多智能体、多次遍历和多模态自动驾驶研究场景,能够促进自动驾驶车辆的感知、预测和规划能力的转变。
- 用于无监督目标发现的循环复合加权自编码器
利用复数值权重的循环体系结构,在迭代的约束满足过程中实现对象绑定和无监督目标发现,并在性能上优于当前的同步模型。
- 掩码式多查询槽注意力用于无监督对象发现
通过利用 DINO ViT 特征的集合查询表示来重建输入特征,我们提出了一种基于物体为中心的方法,通过遮罩输入特征,有选择性地忽略背景区域,以便模型在重建阶段更关注显著对象。此外,我们将 slot attention 拓展为多查询方法,使模 - 道路边缘单元的高效标签三维物体检测
通过无监督目标发现来解决数据密集型的自动驾驶安全应用中的遮挡问题,通过深度信息融合与智能路侧单元(RSU)的协同感知来提升自主车辆的感知能力,从而最大程度上减少遮挡的影响,并通过在少量标注数据上微调方法展示其优于或甚至超越完全监督模型的性能 - CVPRCuVLER:通过详尽的自我监督变换增强无监督对象发现
通过 VoteCut 和 CuVLER 方法,在多个无监督设置中,利用多个自我监督模型的特征表示进行归一化切割、聚类和像素投票,实现了显著的改进,为图像分割领域的未来发展铺平了道路。
- HEAP: 无监督的对比聚类目标发现与定位
通过使用自我监督变换器特征,介绍了一种名为 Hierarchical mErging framework via contrAstive grouPing (HEAP) 的轻量级头部设计方法,以自适应地将图像内的补丁群组成语义一致的区域,以 - 3D 变化检测:通过 2D 分割掩模
该研究论文提出了一种无监督的物体发现方法,通过 3D 变化检测和 2D 分割任务的组合,利用图优化技术将 2D 分割信息应用于 3D 空间,从而提高初始不完全的 3D 变化检测的准确性。实验证明该方法在 3D 扫描数据集上表现优于竞争基线算 - 奖励微调以提高更快和更准确的无监督目标发现
通过利用人类反馈进行强化学习,无监督对象发现的准确性和训练速度得到了显著提高。
- 弱监督对比学习用于无监督物体发现
利用弱监督对比学习的语义引导自监督学习模型,在基于自我监督模型 DINO 的特征编码器上微调,采用主成分分析(PCA)来定位物体区域,实验证明了该解决方案的有效性。
- ICLRSlotDiffusion: 以扩散模型实现以物体为中心的生成建模
本研究聚焦于提高物体图像生成的关键点到图像解码,为了达到高质量的视觉生成,提出了一种基于对象中心潜在扩散模型 SlotDiffusion,该模型在六个数据集上表现优异,并可用于现有的用于视频预测质量和下游时间推理任务的对象中心动力学模型,同 - DiffusionSeg: 适应扩散的非监督物体发现
本文提出了 DiffusionSeg 框架,利用预训练和扩散模型实现无监督物体发现,并采用合成 - 利用两阶段策略来缓解数据不足和结构差异问题,采用反演技术将图像映射回扩散特征,通过大量实验验证了该方法的优越性。
- CVPR无监督目标定位:观察背景发现物体
从背景入手,在不需要强烈假设对象本身的情况下,提出了一个基于特征检测的模型 FOUND,用于无监督的显著性检测和对象发现,并在这些任务上取得了国际领先的成果。
- 基于复数自编码器的目标发现
本研究提出复杂自编码器方法用于无监督物体发现,采用基于生物神经元的编码方案,通过复杂值表示对象的存在和组合关系,相较于传统方法,在性能和效率上有显著提高。
- 无监督 Transformer 定位物体
本文提出了一种不需要昂贵的注释活动的图像集合中的目标本地化的简单方法(称为 LOST),该方法利用了以自我监督方式预训练的视觉转换器的激活特征,同时在 PASCAL VOC 2012 上的实验表明,该方法优于最先进的目标发现方法最高可达 8 - 大规模无监督物体发现
提出了一种新的针对大规模数据集的无监督目标探索(UOD)形式化的排名问题方法,该方法可应用于特征自我学习,并结合各种分布式方法和链接分析,实现了完全无监督的 UOD 流程,在单目标和多目标探索方面表现良好。
- ACL基于语言媒介的物体中心表示学习
Language-mediated, Object-centric Representation Learning 是一种学习物体中心场景表示的新范式,通过从语言输入中获取物体中心概念来促进物体中心表示的学习,并能结合无监督的物体探索算法, - ECCV面向大规模图像集合的无监督多目标发现
该论文提出了一个基于无监督学习的物体发现方法,其中包括了基于显著性的边界提取算法以及采用层次结构与两阶段策略提高发现效率。通过使用小型随机图片集和整个图片集合,该方法能够发现每张图片中的多个目标,实现了对面向真实大规模图像数据集的无监督图像 - 基于插槽注意力的目标中心学习
本文提出了一个名为 Slot Attention 的架构组件,它能够从低级感知特征中提取物体为中心的表示,并能够推广到未见组合。
- IJCAI通过深度描述符转换实现的无监督物体发现和共定位
本文聚焦于预训练深度卷积神经网络模型的可重复使用性,提出了一种称为 Deep Descriptor Transforming (DDT) 的方法,可以准确定位一组未标记图像中的共同对象,具有良好的泛化性和稳健性,并可用于收集 Web 图像作