提高开放词汇检测的特征对齐的三种方法

Mar, 2023

提高开放词汇检测的特征对齐的三种方法

Three ways to improve feature alignment for open vocabulary detection

Relja Arandjelović, Alex Andonian, Arthur Mensch, Olivier J. Hénaff, Jean-Baptiste Alayrac...

TL;DR提出三种方法来解决零样本开放词汇检测中的视觉和文本特征对齐问题，其中包括改进的特征金字塔网络和检测头，自我训练方法以及使用更大的图像文本对语料库来改善检测性能，并在 LVIS 基准测试上获得了新的最优性能。

Abstract

The core problem in zero-shot open vocabulary detection is how to align visual and text features, so that the detector performs well on unseen classes. Previous approaches train the feature pyramid and detection head from scratch, which breaks the vision-text →

zero-shot open vocabulary detection feature alignment self-training approach lvis benchmark state-of-the-art performance

发现论文，激发创造

面向检测的图像 - 文本预训练的开放词汇测量

基于检测导向的图像 - 文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距，通过使探测器头从嘈杂的图像 - 文本对中学习，我们的方法能够利用对比损失学习到新出现的对象 - 语义线索，在 LVIS 和 COCO 基准测试中均获得了非常有竞争力的结果，并在转移检测设置中显著优于基线。

Sep, 2023

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在 LVIS 等新类别上实现了 32.0％的 mAP 和 21.7％的掩膜 mAP 等卓越性能。

Nov, 2022

PyramidCLIP：视觉语言模型预训练的分层特征对齐

PyramidCLIP 通过分层语义对齐和数据集扩充可以提高图像与文本匹配任务中的性能，并在不同的数据集上取得了极具竞争力的结果。

Apr, 2022

使用视觉 Transformer 进行简单的开放词汇物体检测

采用对比式图文预训练和端到端检测微调方法，结合扩展的图像预训练和模型尺度的优化，实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。

May, 2022

Cascade-CLIP: 零样本语义分割的级联视觉 - 语言嵌入对齐

基于预训练视觉 - 语言模型的 Cascade-CLIP 方法，在零样本语义分割任务中通过引入一系列独立解码器，以级联方式将多层次的视觉特征与文本嵌入对齐，取得了优秀的性能。

Jun, 2024

GroundVLP：从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位

通过现有的图像 - 文本配对模型和纯物体检测数据，我们提出了一种名为 GroundVLP 的简单而有效的零样本方法，该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案，用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战，实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28％，并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。

Dec, 2023

打通目标与图像级别表示以实现开放词汇检测

本文提出了一种基于 CLIP 模型和图像水平监督的对象中心对齐的方法，运用伪标注实现高质量对象提议并在训练过程中扩展词汇表，通过新的权重传递函数将两种对象对齐策略结合，实现了在 OVD 方案中对象和图像中心表示的最小化差距。在 COCO 数据集上，我们的方法在新颖类别上取得了 36.6 的 AP50 表现，绝对值超过了以前的最佳性能。对于 LVIS，我们在罕见类别上超越了最新的 ViLD 模型达 5.0 的掩膜 AP，总体提高 3.4。

Jul, 2022

零样本开放词汇分割的扩散模型

本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法，通过考虑采样的图像的背景来更好地定位对象并直接分割背景，并证明该方法可以在多个基准测试中表现出色，在 Pascal VOC 基准测试上领先了超过 10%。

Jun, 2023

通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成

通过减少视觉和文本之间的模态差异，我们提出了一种零摄影机图片字幕框架，通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能，并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具有显著的性能提升。

Jan, 2024

一个开放词汇的零样本分割的简单框架

通过使用冻结的仅包含视觉信息的模型和融合离散文本和语言知识的方式，我们提出了 SimZSS，一种用于开放性词汇的零样本分割的简单框架。在仅使用图像 - 标题对数据集进行训练的情况下，我们的方法利用了视觉表示的质量，并在不到 15 分钟的时间内在 8 个基准数据集中的 7 个上实现了最先进的结果。

Jun, 2024