TaskCLIP:扩展大型视觉语言模型以用于任务导向的物体检测
本研究旨在探索预训练视觉 - 语言模型(VLMs)在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略,并研究其在各种具有挑战性的场景下的性能。我们发现,与以往的观点不同,并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反,通过仅利用来自单个生成模型的少量示例图像,基于 CLIP 的检测器展现出了出乎意料的泛化能力,并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配,并在分布外数据的泛化能力(AUC 提高 6%)和受损 / 清洗数据的鲁棒性上实现了显著的改进(+ 13%)。我们的项目可以在此 https URL 找到。
Nov, 2023
本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式,包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明,该方法在多个下游任务中实现了更高的性能。
Dec, 2023
本文提出了一种基于 CLIP 模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在 OVD 方案中对象和图像中心表示的最小化差距。在 COCO 数据集上,我们的方法在新颖类别上取得了 36.6 的 AP50 表现,绝对值超过了以前的最佳性能。对于 LVIS,我们在罕见类别上超越了最新的 ViLD 模型达 5.0 的掩膜 AP,总体提高 3.4。
Jul, 2022
本研究提出了一项名为 CLIP-TD 的方法,对视觉 - 语言任务进行有针对性的蒸馏,以适应每个实例自适应选择的标记。 经过实验证明,我们的 CLIP-TD 在视觉常识推理,视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益,并在这些任务上取得了最先进的性能。
Jan, 2022
研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势,通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务,CLIP 显著优于现有的视觉编码器,并在多种视觉与语言任务中取得竞争或更好的结果,同时取得了 Visual Question Answering,Visual Entailment 和 V&L Navigation 等任务的新高峰。
Jul, 2021
在本研究中,我们通过给对象识别任务中的大视觉语言模型(VLMs)提供可解释性的数理定义(基于类别和原因的联合概率分布),以一种可解释的方式对 CLIP 进行微调,从而在解释性分类方面展现了最先进的性能,尤其在零样本设置下表现出了它的适应性,使解释性的对象识别得到了改善,增强了不同应用中的信任。
Apr, 2024
通过在 CLIP 训练中结合任务特定的视觉模型,利用伪标签来改进其视觉表示,该简单的设置在不妨碍现有性能的前提下,显著提高了不同视觉任务的效果。
Oct, 2023
RegionCLIP 是一种新的方法,扩展了 CLIP 模型的范围,使其可以学习区域级别的视觉表征,从而实现图像区域和文本概念之间的细粒度对齐,进而在目标检测领域表现出良好的性能。
Dec, 2021
通过使用 CLIP 等语言 - 视觉模型生成不同类别集合的文本特征嵌入来改善特征空间,用广义类别替换早期学习阶段中的不可用新类别,从而模拟实际增量情景,并使用 CLIP 图像编码器识别提议中的潜在对象并对其进行分类,通过修改提议的背景标签为已知类别并将框添加到训练集来缓解数据模糊性问题,我们在 PASCAL VOC 2007 数据集上评估了我们的方法,在各种增量学习设置中,我们的方法优于最先进的方法,特别是对于新的类别。
Oct, 2023
我们提出了一个概念简单但有效的多语言 CLIP 压缩框架,并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP,用于中文和英文环境。在零样本图像分类方面的综合实验表明,相比于现有的类似参数规模的模型,DC-CLIP 在英文环境中取得了优越的性能,在中文环境中表现出竞争性能,即使使用较少的训练数据。我们设计的训练机制证明了其有效性。
Apr, 2024