Nov, 2022

开放词汇目标检测的学习目标语言对齐

TL;DR提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在 LVIS 等新类别上实现了 32.0%的 mAP 和 21.7%的掩膜 mAP 等卓越性能。