Nov, 2022
开放词汇目标检测的学习目标语言对齐
Learning Object-Language Alignments for Open-Vocabulary Object Detection
TL;DR提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象-语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像-文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在LVIS等新类别上实现了32.0%的mAP和21.7%的掩膜mAP等卓越性能。