- CVPR探索视觉基础模型在无监督领域自适应中的优势
在计算机视觉领域,研究通过视觉基础模型和无监督域自适应方法在语义分割任务中的结合对提升无监督域自适应性能和增强视觉基础模型外分布泛化能力具有重要价值。实验结果表明,将视觉基础模型与无监督域自适应方法相结合,不仅能在维持视觉基础模型外分布性能 - 基于少样本调整基础模型的类别递增学习
针对视觉基础模型的少样本调优方面的类增量学习,我们提出了 CoACT 方法,通过异步对比调优、控制微调和一致性引导增量调优三个组成部分,有效提升了模型性能和鲁棒性。
- 医学影像分割:从传统模型到基础模型的超越像素级监督
医学图像分割的注释高效学习与基础模型的挑战:综述与分析。
- CVPR如何为语义分割基础模型进行基准测试?
最近的视觉基础模型在各种任务中展示了高效性,但需要有监督的精调才能有效地执行语义分割任务。本文的主要目标是研究如何对视觉基础模型进行语义分割的基准测试,通过在不同设置下对各种模型进行细调并评估各个设置对性能和训练时间的影响,提出了建议的基准 - 使用低秩适配器从视觉基础模型进行混合精度 Supernet 训练
对于大型和高性能的视觉基础模型(Vision Foundation Models,VFMs)进行任意位操作(BitOPs)的压缩,以在各种硬件上部署。我们提出了将 VFM 微调为混合精度量化超网络的方法,该超网络进行神经架构搜索(NAS), - 通过稀疏插值专家释放元调优的强大力量,以实现少样本泛化
通过稀疏化混合专家方法,稀疏元调优成功地提高了视觉基础模型的迁移能力,并在零阶和基于梯度的适应环境中建立了新的最先进的结果。
- 基于基础模型的放射学内容医学图像检索应用
通过基于内容的图像检索(CBIR)系统中使用视觉基础模型作为功能强大且多用途的成品特征提取器,我们在包含 160 种病理学的 4 种模式的 160 万个二维放射学图像的综合数据集上进行基准测试,从而确定弱监督模型在性能上超越专门化模型,达到 - PointSeg:基于基础模型的三维场景分割的非训练范式
PointSeg 是一种新的无需训练的范例,借助现有的视觉基础模型来解决 3D 场景感知任务,并展示了令人印象深刻的分割性能。
- 面向车载多任务人脸属性识别的研究:探究合成数据和视觉基础模型
通过研究合成数据集在训练复杂的多任务模型中的实用性,特别是在数据可用性有限的情况下,以及视觉基础模型的比较功效,本研究揭示了关于合成数据和视觉基础模型在实际应用中的挑战和机遇。
- 视觉超对齐:视觉基础模型的弱到强泛化
利用弱模型监督强模型以提升性能,采用新颖的自适应可调整损失函数进行弱强监督的综合实验,超越了基准性能和使用整个数据集进行微调的结果,展示了弱强泛化在提升视觉模型性能方面的重大潜力。
- 基于基础模型时代的少样本语义分割新基准
在计算机视觉中,我们比较了四种著名的视觉基础模型(DINO V2,Segment Anything,CLIP,Masked AutoEncoders 和在 COCO 数据集上预训练的 ResNet50),发现 DINO V2 在各种数据集和 - RAP-SAM:面向实时通用分割任何事物
通过转换器架构,本研究提出了一种新的实时分割方案,名为全能实时分割,旨在使用一个模型实现交互分割、全景分割和视频分割等不同任务,为视觉基础模型的实时应用提供了强有力的基准和优化方法。
- 自动驾驶的视觉基础模型铸造:挑战、方法和机遇
自动驾驶中用于构建视觉基础模型(VFMs)的关键技术包括数据准备、预训练策略和下游任务适应等方面,同时介绍了 NeRF、扩散模型、3D 高斯喷洒和世界模型等关键进展,并提出了未来研究的全面路线图。
- 基于大型语言模型的高效少样本临床任务适应
通过部分冻结的简单微调变体和上下文化标签,提出了一种在有限样本大小下超越传统微调方法的方法,从而显著提高了医学图像的语义嵌入区分度,使得在 1-shot 设置下与常用的 one-hot 标签和其他语义监督方法相比性能提高了 3%-5%。
- 更强,更少,更优:利用视觉基础模型进行领域通用语义分割
该研究中,我们首先评估和利用各种视觉基础模型(Vision Foundation Models)在域泛化语义分割(Domain Generalized Semantic Segmentation)中的应用。我们引入了一种名为 Rein 的强 - 对于通用视觉感知同时进行对齐和提示
一种全能视觉感知模型,通过将语言引导的对齐转化为开放词汇的检测,使检测和定位达到收敛,同时通过将语言和视觉表示对齐,并在自然和具有挑战性的数据上进行训练,成功地提高了各种任务的性能。
- 利用视觉基础模型,高效训练小型任务专用模型
利用大型视觉基础模型(VFMs)通过在庞大数据集上预训练,以及在有限标记的目标数据下展现出优异性能的情况下,提出了一种简单高效的面向任务的知识迁移方法,用于对小型任务特定模型进行有效训练。实验结果表明,该方法在有限标记数据的情况下,在四个目 - SAM-CLIP:融合视觉基础模型实现语义和空间理解
我们提出了一种简单的方法,将视觉基础模型(如 CLIP 和 Segment Anything Model)高效地合并成一个统一的模型,以便于边缘设备应用,并能够在广泛的视觉任务中学习富含定位和语义特征的更丰富的视觉表示,同时在零样本语义分割 - 评估 IBM 和 NASA 的地理空间基础模型在洪涝淹没区划中的应用
评估 IBM-NASA 的 Prithvi 模型在洪水淹没区域的地理空间分析任务中的性能,并与其他卷积神经网络和视觉变换器架构进行比较,结果显示了 Prithvi 模型在未见过的区域中分割淹没区域的出色可迁移性,同时建议在多尺度表示学习、高 - 适应高分辨率遥感影像变化检测的片段任意模型
本研究旨在利用 Vision Foundation Models(VFMs)的强大视觉识别能力,提高高分辨率遥感图像(RSIs)的变化检测,并将 VFMs 应用于 HR RSIs 的 CD 是首次的。