- 双图强化 CLIP 用于零样本异常检测
通过引入双图增强 CLIP 方法,结合视觉 - 语言评分系统,对图像异常检测进行了增强,包括利用图像进行相互参考以增强推理过程的视觉环境,以及在测试时引入合成异常来提高定位能力。该方法充分利用了视觉 - 语言联合异常检测的潜力,并在各种数据 - ICCV由视觉和视觉语言预训练引导的无源域自适应
灵活的源免领域自适应(SFDA)框架,通过融合预训练网络,提升了适应性能,并能成功整合现有的 SFDA 方法。
- 通过文本引导的多样的新颖特征合成将 CLIP 普及到未知领域
我们提出了一种插拔式特征增强方法,称为 LDFS(语言引导的多样特征合成),通过合成新领域特征和改进现有的 CLIP 微调策略,从未见过的领域中提高 CLIP 的泛化能力,而无需从这些领域收集数据。
- 关于视觉语言模型的测试时零样本泛化:我们真的需要提示学习吗?
通过研究大型视觉 - 语言模型,特别是 CLIP,有效的调整技术,主要关注软提示调整,这催生了一系列研究。与此同时,测试时数据增强正在成为一个重要的研究领域,它利用图像的多个增强视角来增强零样本泛化能力。相反,我们提出了一种用于测试时数据增 - CLIPArTT: 测试时基于新领域的 CLIP 轻量级适应
通过在推理过程中自动构建文本提示并使用其作为文本监督,CLIPArTT 方法在不需要额外培训的情况下,通过独特的、最小侵入性的文本提示调优过程,使预训练视觉 - 语言模型在各种数据集和环境中动态提升性能并改善适应性。
- 对比视觉语言预训练中的标题多样性建模
我们介绍了一种新的图像预训练模型 Llip,它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力,并通过条件化输入信息来生成更丰富的视觉表示,相较于 CLIP 等基线模型,在多项任务上都有更好的性能表现,包括零样本分类和零样本检索。
- 再审视视觉语言模型的对抗鲁棒性:一种多模态的观点
通过研究视觉语言模型(VLMs)的自适应对抗性鲁棒性,我们引入了一种多模态对抗性攻击策略,并在图像和文本编码器上采用多模态对比对抗性训练损失,以提高 CLIP 的对抗性鲁棒性。在 15 个数据集上进行的广泛实验表明,我们的方法显著提高了 C - 利用跨模态邻居表示改进 CLIP 分类
通过自动生成高质量多样文本,利用 CrOss-moDal nEighbor Representation (CODER) 对 CLIP 进行特征提取,提高 CLIP 在单模态特征提取上的性能,进而充分发挥其强大的跨模态匹配能力。
- 基于人脸表情敏感提示的开放式视频表情识别
在本文中,我们提出了一种针对开放场景的视频人脸表情识别 (OV-FER) 任务,旨在识别不仅包含已知类别,也包含训练中未遇到的新的未知人脸表情。为了克服现有方法对 OV-FER 任务所需的微妙和细微人脸表情模式的不足,我们提出了一种新颖的人 - 使用合成数据进行零样本蒸馏的图像编码器:如何有效利用
利用图像特征为基础的 L2 蒸馏损失,我们训练出的学生模型在四个特定领域数据集上实现了与在 DataCompXL 上训练的 ViT-B/32 教师模型相当的零样本性能,同时参数减少了高达 92%。
- SPARO:用于视觉的稳健和组合式 Transformer 编码的选择性注意力
我们提出了 SPARO,一个将编码分为单独参与的槽位,从而改进了 CLIP 在下游识别、鲁棒性、检索和组合性基准上的性能,并在 DINO 的 ImageNet 中实现了改进。
- CVPRMoDE: 通过聚类实现 CLIP 数据专家
使用混合数据专家(MoDE)方法提高神经网络 CLIP 在零样本图像分类任务上的性能,通过聚类学习多个数据专家,使用元数据与聚类条件的相关性确定权重进行模型集成。
- 皮肤科人工智能中零样本概念生成的数据对齐
人类语义相关且医学领域精确的元标签在皮肤病学中的 AI 分类模型培训中十分稀缺,CLIP 模型可通过利用互联网上的大量图像 - 标题对进行零样本学习以解决数据缺乏的问题,并可以通过使用领域特定的图像 - 标题对对其进行微调来提高分类性能。
- ICLR魔鬼在对象边界:基于 Foundation 模型的无标记实例分割
基于大量数据预训练的模型在各种下游任务中展示出令人印象深刻的零摸索能力,但是在目标检测和实例分割等基本计算机视觉任务中,这些基础模型(如 SAM 和 DINO)难以达到令人满意的性能。本研究揭示了根源在于目标边界,即这些基础模型无法区分个体 - 理解多模态深度神经网络:概念选择视角
通过两阶段的概念选择模型(CSM),本研究在观察到概念的长尾分布的基础上,提出了一种无需引入人为先验的核心概念挖掘方法,实验表明该方法在解释性和理解性方面可与黑盒模型相媲美。
- CVPRAMU-Tuning:基于 CLIP 的有效逻辑偏置用于少样本学习
近期,预训练的视觉 - 语言模型(如 CLIP)在少样本学习方面表现出巨大潜力并吸引了很多研究兴趣。本文通过分析 logit 偏差,从统一的角度分析了基于 CLIP 的少样本学习方法,提出了一种新的 AMU-Tuning 方法来学习有效的 - 利用视觉感知文本特征改进指代图像分割
提出一种名为 VATEX 的新框架,通过使用视觉感知文本特征来改进指代图像分割,在复杂场景中,通过将视觉特征与文本描述相结合,使用 CLIP 来生成初始查询,然后通过上下文理解来强制执行文本变体之间的特征相似性,并保证了语言表达的一致解释。 - 缩放 (下降) CLIP: 数据、架构和训练策略的全面分析
研究通过受限的计算预算缩小规模的对比性语言 - 图像预训练(CLIP)的性能,分析数据、架构和训练策略三个维度,证明高质量训练数据的重要性,指出较小的数据集在一定计算限制下优于较大数据集,并提供选择基于 CNN 架构或 ViT 架构进行 C - BRAVE:拓宽视觉语言模型的视觉编码
通常,视觉语言模型(VLM)由视觉编码器(例如 CLIP)和解释编码特征以解决下游任务的语言模型(LM)组成。我们研究拓展 VLM 的视觉编码能力以应对其局限性,我们首先全面评估了几个具有不同归纳偏差的视觉编码器在解决 VLM 任务时的性能 - SaLIP 与 SAM、CLIP 级联用于零样本医学图像分割的测试时间自适应
该研究论文提出了一种将 Segment Anything Model(SAM)和 CLIP 集成为医学图像分割的统一框架 SaLIP 的方法,展示了在零样本分割中显著提高的 DICE 得分,在脑部(63.46%)、肺部(50.11%)和胎头