面向检测的图像 - 文本预训练的开放词汇测量
提出了一种区域感知的开放词汇视觉 Transformer(RO-ViT)预训练方法,其中使用区域级别的位置嵌入来代替整个图像位置嵌入,取得了在 LVIS 和 COCO 开放词汇检测基准测试的最佳效果。
May, 2023
采用对比式图文预训练和端到端检测微调方法,结合扩展的图像预训练和模型尺度的优化,实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。
May, 2022
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在 LVIS 等新类别上实现了 32.0%的 mAP 和 21.7%的掩膜 mAP 等卓越性能。
Nov, 2022
本文提出了一种通过视觉和语言知识蒸馏的训练方法 ViLD,使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体,其在 LVIS 和其他数据集上的表现超过了现有的最先进水平。
Apr, 2021
提出三种方法来解决零样本开放词汇检测中的视觉和文本特征对齐问题,其中包括改进的特征金字塔网络和检测头,自我训练方法以及使用更大的图像文本对语料库来改善检测性能,并在 LVIS 基准测试上获得了新的最优性能。
Mar, 2023
本文提出了一种弱监督的预训练方法 oCLIP,该方法通过联合学习视觉和文本信息来获取有效的场景文本表示,并能从弱注释文本中学习,可以有效地应对 OCR 任务。实验证明,该方法在多个公共数据集上都优于现有的预训练技术。
Mar, 2022
本文提出了一种基于 CLIP 模型和图像水平监督的对象中心对齐的方法,运用伪标注实现高质量对象提议并在训练过程中扩展词汇表,通过新的权重传递函数将两种对象对齐策略结合,实现了在 OVD 方案中对象和图像中心表示的最小化差距。在 COCO 数据集上,我们的方法在新颖类别上取得了 36.6 的 AP50 表现,绝对值超过了以前的最佳性能。对于 LVIS,我们在罕见类别上超越了最新的 ViLD 模型达 5.0 的掩膜 AP,总体提高 3.4。
Jul, 2022
通过无监督预训练实现视觉和语言模型的学习,使用 “mask-and-predict” 方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁,在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能,挑战了对于 V&L 预训练来说,对齐数据是必要的广泛看法,并显著减少了 V&L 模型的监督所需量。
Oct, 2020
本文提出一种名为 DetPro 的新方法,以学习基于预先训练的视觉 - 语言模型的连续提示表示,用于开放词汇物体检测。与以前的分类为导向的方法不同,DetPro 具有两个亮点:1)背景解释方案,包括图像背景中的提议进入提示训练;2)上下文分级方案,用于分离定制提示训练中的图像前景中的建议。通过将 DetPro 与状态 - of-the-art 的开放世界对象检测器 ViLD 组装在一起,并在 LVIS 以及 Pascal VOC,COCO,Objects365 数据集上进行实验,实验结果表明,我们的 DetPro 在所有设置中都优于基线 ViLD,例如在 LVIS 的新颖类上提高了 3.4 APbox 和 3.0 APmask。
Mar, 2022
本文介绍了一种基于目标检测的图像 - 文本预训练学习方法 Oscar,通过使用在图像中检测到的目标标签作为锚点,显著简化模型中的图像与文本的语义对齐,使其在六个视觉 - 语言理解和生成任务中创造了新的最好成果。
Apr, 2020