视觉语言对象检测的零样本可迁移增量学习

Mar, 2024

视觉语言对象检测的零样本可迁移增量学习

Zero-shot Generalizable Incremental Learning for Vision-Language Object Detection

Jieren Deng, Haojian Zhang, Kun Ding, Jianhua Hu, Xingxuan Zhang...

TL;DR本文提出了一种增量的视觉 - 语言物体检测（IVLOD）学习任务，旨在在保持泛化能力的同时，逐步调整预训练的视觉 - 语言物体检测模型（VLODMs）以适应不同的专用领域。为了解决这一新挑战，我们提出了一种称为 Zero-interference Reparameterizable Adaptation（ZiRa）的新方法，该方法引入了零干扰损失和参数重参数化技术来处理 IVLOD，而不会增加额外的推理成本或显著增加内存使用量。对 COCO 和 ODinW-13 数据集进行的综合实验表明，ZiRa 能够有效保护 VLODMs 的零泛化能力，并持续适应新任务。具体来说，在 ODinW-13 数据集上训练后，ZiRa 的性能优于 CL-DETR 和 iDETR，分别提高了 13.91 和 8.71 个 AP 的零泛化能力。

Abstract

This paper presents incremental vision-language object detection (ivlod), a novel learning task designed to incrementally adapt pre-trained Vision-Language Object Detection Models (→

incremental vision-language object detection zero-interference reparameterizable adaptation vlodms zero-shot generalization ivlod

发现论文，激发创造

通过视觉和语言知识蒸馏进行开放式目标检测

本文提出了一种通过视觉和语言知识蒸馏的训练方法 ViLD，使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体，其在 LVIS 和其他数据集上的表现超过了现有的最先进水平。

Apr, 2021

重新审视视觉语言模型下的少样本目标检测

本论文提出了一种基于少样本目标检测的新的评估协议，旨在在任何外部数据集上预训练和微调检测器，并且通过利用联合学习策略，改进了现有方法，并在 LVIS 和 nuImages 上获得 5.9 个 AP 的提升。

Dec, 2023

OmDet: 大规模视觉语言多数据集预训练的语言感知目标检测

本文提出一种基于多模态预训练的语言条件检测框架，能够通过自然语言作为知识表示从不同的数据集中积累 “视觉词汇”，解决多数据集训练中的技术难题，并成功应用于超过 35 个目标检测任务，取得最新成果。

Sep, 2022

Z-LaVI: 由视觉想象力驱动的零样本语言求解器

通过利用两种互补的 “想象力”（检索已有图像和通过文本到图像生成合成不存在的图像），我们开发了一种新颖的方法 Z-LaVI，为语言模型赋予了视觉想象能力，从而解决了大规模预训练语言模型的报告偏差问题，提高了跨多个语言任务的零 - shot 性能。

Oct, 2022

视觉语言模型的低秩少样本适应

近期关于 Vision-Language Models（VLMs）的少样本适应研究进展大大提高了其泛化能力，但未充分考虑 Parameter-Efficient Fine-Tuning（PEFT）的最新进展。因此，本文引入了 Low-Rank Adaptation（LoRA）在少样本适应学习中，并在 11 个数据集上展示了其潜力，与最先进的基于 prompt 和 adapter 的方法进行对比。令人惊讶的是，我们的简单 CLIP-LoRA 方法在所有目标任务（所有数据集和样本数）上保持相同的超参数的同时，显著提高了性能。当然，我们的结果并不否定普遍学习和基于适配器的研究的潜力，但我们相信我们的强基准方法可用于评估少样本 VLMs 中这些新兴主题的进展。

May, 2024

基于检索增强的开放词汇物体检测

使用提取与负词汇的语义相似度和从大型语言模型中取得的概念进行视觉特征增益，通过 Retrieval-Augmented Losses and visual Features (RALF) 方法，成功改进了基于 Vision-Language Models (VLMs) 的开放性词汇目标检测技术，取得了在 COCO 和 LVIS 基准数据集上的显著改进。

Apr, 2024

通过视觉语言集成实现零样本人 - 物体交互检测

本研究提出了一种名为 KI2HOI 的新型框架，用于有效整合视觉语言模型的知识，从而改进零样本人物 - 物体交互检测。通过采用动词提取解码器将相应的动词查询转换为特定交互类别的表示形式，设计了基于视觉语义的动词特征学习模块。通过有效的加性自注意机制生成更全面的视觉表示。此外，创新的交互表示解码器通过交叉注意机制，有效地提取信息丰富的区域。为了处理低数据中的零样本学习，利用 CLIP 文本编码器的先验知识，为增强交互理解初始化线性分类器。在主流的 HICO-DET 和 V-COCO 数据集上进行的大量实验证明，我们的模型在各种零样本和全监督设置上优于以前的方法。

Mar, 2024

CVPR2024 基础 Few-Shot 目标检测挑战的解决方案

本报告介绍了一种增强的方法来解决基础性少样本物体检测任务，利用视觉语言模型 (VLM) 进行物体检测。为解决 VLM 可能遇到的与目标概念不一致的问题，本研究提出了 VLM + 框架，把多模态大型语言模型 (MM-LLM) 集成到 VLM 中。通过 MM-LLM 生成每个类别的一系列参考表达式，根据 VLM 的预测和给定的注释，选取与每个类别最大 IoU 匹配的最佳参考表达式，并生成伪标签来细调 VLM。该方法在最终测试中达到了 32.56 mAP。

Jun, 2024

VLM-PL：基于视觉 - 语言模型的高级伪标签方法的类别增量对象检测

在 Class Incremental Object Detection（CIOD）领域，解决模型如何像人类一样持续学习的问题是一个重大挑战。为了克服传统的伪标签方法在多场景增量学习中遗忘过去知识的问题，该研究介绍了一种名为 Vision-Language Model assisted Pseudo-Labeling（VLM-PL）的新方法。通过将图像和文本特征组合设计的提示模板生成自定义查询，借助视觉 - 语言模型（VLM），VLM-PL 技术能够验证伪标签的正确性，而无需额外的模型训练。通过将精细化的伪标签和真实标签整合，并结合新旧知识，VLM-PL 在 Pascal VOC 和 MS COCO 数据集上进行了广泛实验，不仅在多场景问题上表现出色，还在双场景问题上取得了最先进的结果。

Mar, 2024

基于大型语言模型的复合视觉线索进行零样本视觉关系检测

通过使用 RECODE 方法，利用预训练图像 - 语言模型，我们能够解决零样本可视关系检测中存在的问题，提高了关系检测的准确性和可解释性。

May, 2023