TaskCLIP：扩展大型视觉语言模型以用于任务导向的物体检测

Mar, 2024

TaskCLIP：扩展大型视觉语言模型以用于任务导向的物体检测

TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection

Hanning Chen, Wenjun Huang, Yang Ni, Sanggeon Yun, Fei Wen...

TL;DR通过使用大规模视觉和语言模型（VLM）作为模型骨干，以及基于 Transformer 的校准器，我们提出了 TaskCLIP，一个两阶段的设计用于任务导向的目标检测，实验结果表明我们的方法优于当前最先进的 TOIST 模型，并且只需要一张 NVIDIA RTX 4090 显卡进行训练和推理。

Abstract

task-oriented object detection aims to find objects suitable for accomplishing specific tasks. As a challenging task, it requires simultaneous visual data processing and →

task-oriented object detection visual data processing reasoning large vision-language models (vlms)transformer-based aligner

发现论文，激发创造

提升人工智能生成图像检测的水平与 CLIP

本研究旨在探索预训练视觉 - 语言模型（VLMs）在人工智能生成图像的普适检测中的潜力。我们基于 CLIP 特征开发了一种轻量级检测策略，并研究其在各种具有挑战性的场景下的性能。我们发现，与以往的观点不同，并不需要使用大量特定领域的数据集进行训练是必要且方便的。相反，通过仅利用来自单个生成模型的少量示例图像，基于 CLIP 的检测器展现出了出乎意料的泛化能力，并且在包括 Dalle-3、Midjourney v5 和 Firefly 在内的最新商业工具中具有高鲁棒性。我们在分布内数据上与 SoTA 相匹配，并在分布外数据的泛化能力（AUC 提高 6%）和受损 / 清洗数据的鲁棒性上实现了显著的改进（+ 13％）。我们的项目可以在此 https URL 找到。

Nov, 2023

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

打通目标与图像级别表示以实现开放词汇检测

本文提出了一种基于 CLIP 模型和图像水平监督的对象中心对齐的方法，运用伪标注实现高质量对象提议并在训练过程中扩展词汇表，通过新的权重传递函数将两种对象对齐策略结合，实现了在 OVD 方案中对象和图像中心表示的最小化差距。在 COCO 数据集上，我们的方法在新颖类别上取得了 36.6 的 AP50 表现，绝对值超过了以前的最佳性能。对于 LVIS，我们在罕见类别上超越了最新的 ViLD 模型达 5.0 的掩膜 AP，总体提高 3.4。

Jul, 2022

CLIP-TD：针对视觉语言任务的 CLIP 目标蒸馏

本研究提出了一项名为 CLIP-TD 的方法，对视觉 - 语言任务进行有针对性的蒸馏，以适应每个实例自适应选择的标记。经过实验证明，我们的 CLIP-TD 在视觉常识推理，视觉蕴涵推理和视觉问答的低量数据和领域迁移条件下获得了显着的增益，并在这些任务上取得了最先进的性能。

Jan, 2022

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

ECOR：面向目标识别的可解释 CLIP

在本研究中，我们通过给对象识别任务中的大视觉语言模型（VLMs）提供可解释性的数理定义（基于类别和原因的联合概率分布），以一种可解释的方式对 CLIP 进行微调，从而在解释性分类方面展现了最先进的性能，尤其在零样本设置下表现出了它的适应性，使解释性的对象识别得到了改善，增强了不同应用中的信任。

Apr, 2024

CLIP 融合模型库专家：视觉增强的伪监督

通过在 CLIP 训练中结合任务特定的视觉模型，利用伪标签来改进其视觉表示，该简单的设置在不妨碍现有性能的前提下，显著提高了不同视觉任务的效果。

Oct, 2023

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

使用 CLIP 的增量目标检测

通过使用 CLIP 等语言 - 视觉模型生成不同类别集合的文本特征嵌入来改善特征空间，用广义类别替换早期学习阶段中的不可用新类别，从而模拟实际增量情景，并使用 CLIP 图像编码器识别提议中的潜在对象并对其进行分类，通过修改提议的背景标签为已知类别并将框添加到训练集来缓解数据模糊性问题，我们在 PASCAL VOC 2007 数据集上评估了我们的方法，在各种增量学习设置中，我们的方法优于最先进的方法，特别是对于新的类别。

Oct, 2023

多语言场景的渐进式视觉语言知识蒸馏和对齐框架

我们提出了一个概念简单但有效的多语言 CLIP 压缩框架，并训练了一个轻量级的多语言视觉 - 语言模型 DC-CLIP，用于中文和英文环境。在零样本图像分类方面的综合实验表明，相比于现有的类似参数规模的模型，DC-CLIP 在英文环境中取得了优越的性能，在中文环境中表现出竞争性能，即使使用较少的训练数据。我们设计的训练机制证明了其有效性。

Apr, 2024