基于检索增强的开放词汇物体检测

CVPRApr, 2024

基于检索增强的开放词汇物体检测

Retrieval-Augmented Open-Vocabulary Object Detection

Jooyeon Kim, Eulrang Cho, Sehyung Kim, Hyunwoo J. Kim

TL;DR使用提取与负词汇的语义相似度和从大型语言模型中取得的概念进行视觉特征增益，通过 Retrieval-Augmented Losses and visual Features (RALF) 方法，成功改进了基于 Vision-Language Models (VLMs) 的开放性词汇目标检测技术，取得了在 COCO 和 LVIS 基准数据集上的显著改进。

Abstract

open-vocabulary object detection (OVD) has been studied with Vision-Language Models (VLMs) to detect novel objects beyond the pre-trained categories. Previous approaches improve the generalization ability to expand the knowledge of the detector, using 'positive' pseudo-labels with addi

open-vocabulary object detection vision-language models retrieval-augmented losses visual features coco and lvis benchmark datasets

发现论文，激发创造

RAVEN：多任务检索增强视觉 - 语言学习

该论文介绍了 RAVEN，一个多任务的检索增强视觉语言模型框架，通过有效的任务特定微调，无需额外的检索特定参数，该模型获得了在多个任务中都有效的检索能力，对图像字幕和 VQA 任务的广泛实验结果表明，与非检索基准线相比，在 MSCOCO 上提高了 + 1 CIDEr，在 NoCaps 上提高了 + 4 CIDEr，在特定的 VQA 问题类型上提高了近 3％的准确率，这表明了将 RAG 方法应用于视觉语言模型的有效性，标志着朝着更高效和可访问的多模态学习迈进。

Jun, 2024

通过负样本短语增强实现开放词汇对象检索和定位的判别式学习

本篇研究旨在解决目标检测模型只能处理预定义类的问题，并提出利用文本查询进行目标检索和定位的方法 (Query-Adaptive R-CNN), 通过负向短语扩充 (NPA) 技术训练分类器以检索和定位视觉样本库中的对象，实验表明该方法能在 0.5 秒内从 100 万张图像中准确完成检索定位。

Nov, 2017

好的开放式字词探测器的要素：一个拆解的视角

开放词汇检测（OVD）是一种新的目标检测范式，旨在定位和识别由不受限词汇定义的未知对象。本文提出了三种 OVD 方法，并通过实验验证了这些方法在不同设置下的性能。其中，DRR 方法在 OVD-COCO 基准测试中取得了最佳表现，并相对于先前最先进水平获得了 2.8 的 AP$_{50}$ 绝对增益。

Sep, 2023

通过视觉和语言知识蒸馏进行开放式目标检测

本文提出了一种通过视觉和语言知识蒸馏的训练方法 ViLD，使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体，其在 LVIS 和其他数据集上的表现超过了现有的最先进水平。

Apr, 2021

基于检索的长尾视觉识别分类

提出了 Retrieval Augmented Classification (RAC) 方法，并应用于解决长尾分类问题，通过显式引入检索模块，使用非参数化外部内存信息显著提高了 Places365-LT 和 iNaturalist-2018 数据集的性能，尤其是在尾部类别上，为计算机视觉体系结构中更有效地利用外部存储器提供了替代方案。

Feb, 2022

视觉语言对象检测的零样本可迁移增量学习

本文提出了一种增量的视觉 - 语言物体检测（IVLOD）学习任务，旨在在保持泛化能力的同时，逐步调整预训练的视觉 - 语言物体检测模型（VLODMs）以适应不同的专用领域。为了解决这一新挑战，我们提出了一种称为 Zero-interference Reparameterizable Adaptation（ZiRa）的新方法，该方法引入了零干扰损失和参数重参数化技术来处理 IVLOD，而不会增加额外的推理成本或显著增加内存使用量。对 COCO 和 ODinW-13 数据集进行的综合实验表明，ZiRa 能够有效保护 VLODMs 的零泛化能力，并持续适应新任务。具体来说，在 ODinW-13 数据集上训练后，ZiRa 的性能优于 CL-DETR 和 iDETR，分别提高了 13.91 和 8.71 个 AP 的零泛化能力。

Mar, 2024

揭示和缓解检索增强的大规模语言模型中的检索器不一致性

综合检索增强的大型语言模型，在研究表明事实性方面较优越，但并不始终优于原始的无检索语言模型。我们的实验揭示了这种例级性能不一致不仅存在于检索增强和无检索语言模型之间，而且在不同的检索器之间也存在。为了理解这一现象，我们对综合检索增强的大型语言模型进行了退化行为研究，并在理论上将其分解为四个类别。根据我们的分解进一步分析表明，知识源的固有差异和读者模型的不可预测的退化对这种不一致性起到了主要贡献。根据我们的分析，我们引入了可训练的综合检索器框架（EoR），该框架可以从不同的知识源自适应地检索，并且可以有效地减少不可预测的读者错误。我们在开放域问题回答方面的实验证明，EoR 显著改善了单个检索器的 RALM 的性能，并大幅减少了不一致的行为。

May, 2024

使用预训练的视觉语言模型进行负标签引导的 OOD 检测

我们提出了一种名为 NegLabel 的新型事后 OOD 检测方法，该方法利用来自广泛语料库数据库的大量负标签，并设计了一种与负标签合作的 OOD 得分方案。通过理论分析，帮助理解负标签的机制。大量实验证明，我们的方法 NegLabel 在各种 OOD 检测基准数据集上实现了最先进的性能，并且在多种视觉语言模型中具有良好的泛化能力。此外，我们的方法 NegLabel 对于各种领域变化表现出了显著的鲁棒性。

Mar, 2024

使用自适应对抗训练提升检索增强语言模型的抗噪能力

这项研究将大型语言模型与检索增强生成相结合，提出了一种名为 RAAT 的新的检索增强自适应对抗训练方法，通过适应性对抗训练动态调整模型的训练过程以应对检索噪声，并通过多任务学习确保模型内部识别噪声上下文的能力。实验证明，使用 RAAT 训练的 LLaMA-2 7B 模型在不同噪声条件下显著提高了 F1 和 EM 分数。

May, 2024

RAR: 检索与排序增强型 MLLM 用于视觉识别

CLIP 和 Multimodal Large Language Models（MLLMs）在识别广泛的候选人方面具有优势，RAR 结合了两种方法的优点，并通过建立多模式检索器和对 MLLMs 进行排名来提高对广泛和细粒度词汇的几次 / 零次识别能力，该方法在细粒度视觉识别、几次拍摄图像识别和零次识别设置下的物体检测等任务中显著提升了准确性。

Mar, 2024