- 从黄昏直到黎明:利用视觉基础模型进行自监督夜间立体深度估计
提出了一种算法,专注于夜间条件下准确的自监督立体深度估计,通过使用预训练的视觉基础模型提取具有挑战性场景的泛化特征,并提出了一种有效的匹配和集成方法,同时采用了新颖的遮罩方法来过滤掉违反光度一致性假设的像素,并提出了新颖的评估指标,实验证明 - 通过视觉基础模型和离线强化学习增强体感视觉跟踪
提出了一个结合了视觉基础模型和离线强化学习的新框架,以赋予具有体内视觉的智能体进行视觉跟踪任务,并通过使用蒙版重定向机制和多级数据收集策略进一步提高了跟踪结果的稳健性和泛化性。通过对多种高保真度场景进行的评估,结果表明该方法在样本效率、对干 - CVPR探究视觉基础模型的三维认知能力
最近大规模预训练的进步提供了具有强大功能的视觉基础模型。我们分析了视觉基础模型的三维感知能力,并通过一系列实验揭示了当前模型的几个局限性。
- CVPR基于基础模型的图像匹配:开放词汇语义分割的新视角
基于视觉基于模型,提出了一种关系感知的单模态匹配 (OVS) 框架,用于解决像素分组和区域识别方法中图像特征与类别标签之间的误匹配问题,并在三个基准测试中展现出大幅度优势。
- SAID-NeRF:透明物体的分割辅助 NeRF 深度补全
使用 Visual Foundation Models(VFMs)以零样本、无标签的方式,通过同时重建语义场和增强模型来指导 NeRF 重建过程,从而获取透明物体的准确深度信息。我们的方法 SAID-NeRF 在透明物体深度完成数据集和机器 - 视觉基础模型提升跨模态无监督域自适应在 3D 语义分割中
利用 2D 视觉基础模型 (VFM) 的先验知识,我们提出了一种新的 VFMSeg 流水线,通过利用这些模型来进一步增强跨模态的无监督领域自适应框架,以提供更精确的无标签目标领域标签并改善整体性能。
- 分割任何变化
在这篇文章中,我们提出了一种新的变化检测模型,称为 Segment Any Change Models(AnyChange),它通过训练无关的自适应方法,在零样本预测和泛化的情况下支持不同类型和数据分布的变化检测。AnyChange 通过在 - GEM:通过分段多功能模型和数据合成提升玻璃表面分割的简化网络
通过使用视觉基础模型,我们提出了一个名为 GEM 的简单玻璃表面分割器,该分割器能够自适应地识别玻璃表面特征,并在 GSD-S 验证集上达到了新的最佳性能(IoU+2.1%)。
- RoboFusion: 基于 SAM 的稳健多模态 3D 目标检测
RoboFusion 是一个利用视觉基础模型的健壮框架,通过减少噪声来提高多模式三维物体检测的鲁棒性和可靠性,并在嘈杂的场景中获得了最先进的性能。
- PROMPT-IML:通过 Prompt 调整预训练的基础模型实现图像操作定位
社交网络服务下的欺诈图像存在重大风险,我们提出了一个新的 Prompt-IML 框架来使用预训练的视觉基础模型辅助图像操作定位,所设计的模型在八个典型虚假图像数据集上表现出更好的性能和卓越的鲁棒性。
- 基于语义感知的点提示实例分割及验证
使用 Segment Anything (SAM) 集成 Multiple Instance Learning (MIL) 的 Semantic-Aware Instance Segmentation Network (SAPNet) 有助 - 生成和判别视觉基础模型的统一化探索
预训练基础模型的出现带来了计算机视觉领域的新篇章,其具有鲁棒性和显著的零样本泛化能力。本综述重点探讨了视觉基础模型在生成任务和判别任务方面的可扩展性、熟练度以及诸多方法。同时,我们整理和讨论了促进视觉基础模型开发的广泛资源,并解决了未来研究 - 大规模图像和视频的通用对象基础模型
本研究提出了 GLEE,这是一个用于定位和识别图像和视频中对象的对象级基础模型。通过一个统一的框架,GLEE 在各种对象感知任务的开放世界场景中完成了检测、分割、跟踪、定位和识别任意对象的工作。它通过强大的学习策略从多样的数据源获得知识,构 - AM-RADIO: 聚合模型 -- 将所有领域合并为一个
AM-RADIO 是一种通过多教师蒸馏将多个视觉基础模型 (BFM) 有效合并为一个统一模型的方法,超越了单个教师模型的性能,并融合了其独特的特征,如零 - shot 视觉 - 语言理解、像素级理解和开放式词汇分割能力。通过评估多个架构,此 - 通过视觉上下文调节提示来改善扩散模型中的上下文学习
本研究引入了改进的 Prompt Diffusion(iPromptDiff),结合端到端训练的视觉编码器和文本提示,使扩散式视觉基础模型在各种训练任务中展现了多功能性和稳健性,特别是在新的视觉任务中的上下文学习方面表现出了优异的能力。
- 基于图像级标签的弱监督语义分割:从传统模型到基础模型
基于图像级标签的弱监督语义分割是有效的避免昂贵标注的解决方案。本文首先对传统方法进行全面调研,然后研究了在弱监督语义分割中视觉基础模型(如 SAM)的适用性和挑战,为该研究领域的未来发展提供了深入的见解。
- 应用全球土地覆盖产品作为视觉基础模型的农田识别提示
通过视觉基础模型,我们引入了 “Pretrain+Prompting” 范例来解读农田场景,并基于可获得的全球土地覆盖产品设计了自动提示(APT)方法。该方法实现了从通用场景到专用农田场景的精细适应过程,而无需引入额外的标签成本。我们的实验 - 第 5 届 LSVOS 挑战赛冠军解决方案:视频实例分割
视频实例分割方法 DVIS 在训练过程中引入了去噪策略以实现在复杂和长视频中更稳定准确的目标跟踪,并利用 DINO v2 预训练的冻结的 VIT-L 模型探索了视觉基础模型在视频实例分割中的作用,最终在第 5 届 LSVOS 挑战赛中获得了 - TaCA: 使用任务无关的兼容适配器升级您的视觉基础模型
本文介绍一种名为 TaCA 的参数高效且任务不可知的适配器,可以促进不同基础模型之间的兼容性,同时保证了新模型的性能提升,以便于下游应用在无需重新训练的情况下顺利集成优秀的基础模型。
- 基础分割模型的稳健性分析
本文通过性能评估研究了在分割任务中对真实世界分布偏移抗干扰能力的不同模型,发现 Visual Foundation Models(VFMs) 对基于压缩的破坏不具备鲁棒性,而非 VFM 模型在监督下表现更加强健,但在零样本评估中仍然竞争性鲁