CVPR2024 基础 Few-Shot 目标检测挑战的解决方案

CVPRJun, 2024

CVPR2024 基础 Few-Shot 目标检测挑战的解决方案

The Solution for CVPR2024 Foundational Few-Shot Object Detection Challenge

Hongpeng Pan, Shifeng Yi, Shouwei Yang, Lei Qi, Bing Hu...

TL;DR本报告介绍了一种增强的方法来解决基础性少样本物体检测任务，利用视觉语言模型 (VLM) 进行物体检测。为解决 VLM 可能遇到的与目标概念不一致的问题，本研究提出了 VLM + 框架，把多模态大型语言模型 (MM-LLM) 集成到 VLM 中。通过 MM-LLM 生成每个类别的一系列参考表达式，根据 VLM 的预测和给定的注释，选取与每个类别最大 IoU 匹配的最佳参考表达式，并生成伪标签来细调 VLM。该方法在最终测试中达到了 32.56 mAP。

Abstract

This report introduces an enhanced method for the Foundational Few-Shot Object Detection (FSOD) task, leveraging the vision-language model (VLM) for object detection. However, on specific datasets, VLM may encounter the problem where the detected targets are misaligned with the target

foundational few-shot object detection vision-language model misalignment multimodal large language model pseudo-labels

发现论文，激发创造

重新审视视觉语言模型下的少样本目标检测

本论文提出了一种基于少样本目标检测的新的评估协议，旨在在任何外部数据集上预训练和微调检测器，并且通过利用联合学习策略，改进了现有方法，并在 LVIS 和 nuImages 上获得 5.9 个 AP 的提升。

Dec, 2023

F-VLM：基于冻结视觉和语言模型的开放词汇物体检测

本文提出了 F-VLM，一种基于 Frozen Vision and Language Models 的简单开放式识别目标检测方法，通过消除知识蒸馏和定制化预训练，简化了现有的多阶段训练管道，实验结果表明 F-VLM 实现了优异的可扩展性，对于 LVIS open-vocabulary detection benchmark 实现了 + 6.5 mask AP 的改进，并在 COCO 开放式识别目标检测基准测试和跨数据集转移检测方面也取得了很有竞争力的结果。

Sep, 2022

VLM-PL：基于视觉 - 语言模型的高级伪标签方法的类别增量对象检测

在 Class Incremental Object Detection（CIOD）领域，解决模型如何像人类一样持续学习的问题是一个重大挑战。为了克服传统的伪标签方法在多场景增量学习中遗忘过去知识的问题，该研究介绍了一种名为 Vision-Language Model assisted Pseudo-Labeling（VLM-PL）的新方法。通过将图像和文本特征组合设计的提示模板生成自定义查询，借助视觉 - 语言模型（VLM），VLM-PL 技术能够验证伪标签的正确性，而无需额外的模型训练。通过将精细化的伪标签和真实标签整合，并结合新旧知识，VLM-PL 在 Pascal VOC 和 MS COCO 数据集上进行了广泛实验，不仅在多场景问题上表现出色，还在双场景问题上取得了最先进的结果。

Mar, 2024

语义增强的少样本目标检测

提出了一个使用语义嵌入进行精细调整的少样本目标检测框架，通过使用语义相似性分类器，多模态特征融合和语义感知最大边界损失，解决了现有方法在极低样本场景中对新类别存在的分类混淆和性能下降问题。

Jun, 2024

LOVM: 语言优先视觉模型选择

本研究提出了一种热门研究课题，即如何对多模态视觉 - 语言模型进行选择和预测，并利用新的基准测试 LOVM 来进行考核评估。

Jun, 2023

歌词：通过语义感知视觉对象增强细粒度语言视觉对齐和理解

一种新的多模式预训练和指令微调范式 Lyrics，通过细粒度的跨模态协作，将从细粒度视觉精炼器中提取的局部视觉特征注入到查询转换器中，同时，在语言输入的边界框和标签方面使用从视觉精炼器中推导出的信息，通过两阶段训练方案实现模态融合，从而在各种视觉语言任务中取得了强大的性能和有希望的多模态理解和详细描绘能力。

Dec, 2023

GroundVLP：从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位

通过现有的图像 - 文本配对模型和纯物体检测数据，我们提出了一种名为 GroundVLP 的简单而有效的零样本方法，该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案，用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战，实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28％，并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。

Dec, 2023

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

LLMs 遇见 VLMs：用细粒度描述符提升开放词汇物体检测

DVDet 是一个描述符增强的开放词汇检测器，引入条件上下文提示和分层文本描述符，实现了精确的区域 - 文本对齐以及一般的开放词汇检测训练。

Feb, 2024

来自冻结视觉 - 语言模型的零样本视频时刻检索

我们提出了一种零样本方法，可以从任意的视觉语言模型中获得可泛化的视觉文字先验，并利用条件特征细化模块和自下而上的提案生成策略来改善视频片段与文本的对齐，从而在视频片段检索中实现显著的性能优势。

Sep, 2023