DesCo: 利用丰富的语言描述学习物体识别

Jun, 2023

DesCo: 利用丰富的语言描述学习物体识别

DesCo: Learning Object Recognition with Rich Language Descriptions

Liunian Harold Li, Zi-Yi Dou, Nanyun Peng, Kai-Wei Chang

TL;DR该研究提出了一种新的描述条件（DesCo）学习范式，利用大型语言模型作为常识知识引擎并设计了上下文敏感查询来改善模型的描述能力，从而在零样本检测环境下，超越了先前的最先进模型，以提高物体识别的准确性。

Abstract

Recent development in vision-language approaches has instigated a paradigm shift in learning visual recognition models from language supervision. These approaches align objects with language queries (e.g. "a photo of a cat") and improve the models' adaptability to identify novel object

发现论文，激发创造

Pix2seq: 一种用于目标检测的语言建模框架

Pix2Seq是一种简单且通用的目标检测框架，不同于现有的方法，它将目标检测视为一种基于观察像素输入的语言建模任务，并通过训练神经网络来感知图像并生成所需的序列，与高度专业化和精心优化的检测算法相比，在具有挑战性的COCO数据集上实现了有竞争力的结果

Sep, 2021

基于图像的语言预训练

本文提出了一种基于图像和语言语境的预训练 (GLIP) 模型，它可以同时学习目标检测和短语 grounding 任务以提升自身性能，并利用海量的图像文本对进行自我训练，从而获得语义丰富的表示。实验结果表明，GLIP 的表示具有较强的零样本迁移能力和准确性，可在各种目标识别任务上实现最先进的结果。

Dec, 2021

利用视觉和语言模型开发目标检测算法的无标签数据

利用视觉与语言模型产生伪标签的方法来实现无标注图像中物体的定位和分类，从而解决大规模获取标注数据的难题，并通过在学习过程中使用这些伪标签，展示了该方法在开放词汇检测和半监督目标检测等任务上的有效性。

Jul, 2022

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象-语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像-文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在LVIS等新类别上实现了32.0％的mAP和21.7％的掩膜mAP等卓越性能。

Nov, 2022

开放词汇物体检测的多模式分类器

本文旨在进行无遮挡多类目标检测的研究，探索使用语言描述、图像样例或两者的组合来指定新颖类别的三种方式，研究者通过采用大型语言模型来生成信息化的语言描述，基于图像样例提供了视觉聚合器，并提出了将语言描述和图像样例信息融合的多模态分类器方法。实验表明，本文提出的基于文本的分类器优于之前OVOD方案，基于视觉的分类器表现与文本分类器表现相当，而使用多模态分类器比任一模态更好。

Jun, 2023

走向开放词汇学习：综述

本文综述了开放式词汇学习的最新动态，强调了其与零样本学习、开放集识别和超出分布检测等相关概念的比较，并详细讨论了检测和分割等视觉场景理解任务下的具体应用。研究发现，开放式词汇学习方法在实践中更具广泛性、有效性和实用性，未来仍有许多探索余地。

Jun, 2023

揭示描述物体检测中的问题制造者

通过构建$D^3$数据集，我们提出了一种基于二元分类子任务的基线方法，它通过重构训练数据并引入二元分类子任务来大幅改进Referring Expression Comprehension方法，并在Described Object Detection任务上超越现有方法。

Jul, 2023

细节决定成败：评估针对细节理解的开放词汇物体检测器

我们在这篇论文中通过引入动态词汇生成的评估方案来探索现有开放词汇物体检测方法对物体的细粒度属性及其部分了解的程度，并通过对几种最先进的开放词汇物体检测器的评估，发现大多数现有方法难以准确捕捉和区分物体的细节，并总结了当前方法的局限性和有望克服这些缺点的研究方向。

Nov, 2023

用于开放式物体检测的生成式区域语言预训练

生成式开放式物体检测是一种更通用、实用的问题，本论文提出了一个名为GenerateU的简单框架，将物体检测作为一个生成问题，可以以自由形式检测密集物体并生成它们的名称，通过广泛的实验验证了GenerateU的强大的零样本检测性能。

Mar, 2024

CerberusDet：统一多任务目标检测

CerberusDet是一种多头模型的目标检测框架，基于YOLO架构，在高效共享视觉特征的同时保持独立的任务头部，通过训练多个任务来提升模型的效率，并在PASCAL VOC数据集和Objects365数据集上取得与最先进的数据特定模型相当的结果，推断时间减少36%。

Jul, 2024