区域感知预训练与视觉 Transformer 实现开放式目标检测
基于检测导向的图像 - 文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距,通过使探测器头从嘈杂的图像 - 文本对中学习,我们的方法能够利用对比损失学习到新出现的对象 - 语义线索,在 LVIS 和 COCO 基准测试中均获得了非常有竞争力的结果,并在转移检测设置中显著优于基线。
Sep, 2023
CFM-ViT 是一种图像 - 文本预训练方法,具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器(MAE)目标与对比学习目标相结合,CFM-ViT 在联合图像 - 文本嵌入空间中进行重构,以比传统的 MAE 方法更好地学习区域级语义。此外,引入位置嵌入丢弃(PED)来解决图像 - 文本预训练和检测微调之间的尺度变化,从而提高检测性能并利用冻结的 ViT 骨干作为区域分类器,避免在检测微调过程中遗忘开放词汇知识。在 LVIS 开放词汇检测基准下,CFM-ViT 实现了 33.9 AP$r$ 的最新成果,超过最佳方法 7.6 个点,并在零样本检测转移方面取得更好的效果。最后,CFM-ViT 获得了强大的图像级表示,在 8 个零样本图像 - 文本检索基准中表现出了优于当前技术水平的成绩。
Sep, 2023
采用对比式图文预训练和端到端检测微调方法,结合扩展的图像预训练和模型尺度的优化,实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。
May, 2022
本文提出了 Object-Region Video Transformers (ORViT)—— 一种基于对象的视觉转换方法,通过融合早期层的对象间信息直接影响整个网络的时空表示。我们的模型通过面向对象的自我关注和分离对象的动态特征来捕获物体和其在视频中的动态交互,取得了在多项任务和数据集上的显著性能提升。
Oct, 2021
RegionCLIP 是一种新的方法,扩展了 CLIP 模型的范围,使其可以学习区域级别的视觉表征,从而实现图像区域和文本概念之间的细粒度对齐,进而在目标检测领域表现出良好的性能。
Dec, 2021
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer(ViT)变体。
Jun, 2021
基于 OWL-ViT 模型,我们通过添加一个 Transformer 解码器来成功将开放世界模型应用于视频以实现开放世界定位,从而实现了更好的时间一致性和更强的开放世界能力。
Aug, 2023
通过 VIVO 预训练模型,该论文提出了一种使用无注释图像和标签数据进行预训练的方法,通过预训练一个多层转换器模型来学习视觉词汇,并验证了其在图像字幕生成中的有效性。
Sep, 2020
该论文对 CLIP 模型中的区域 - 语言对齐进行了深入分析,并提出了一种名为 CLIPSelf 的方法,该方法能够将 CLIP ViTs 的图像级识别能力应用到局部图像区域中,从而在开放式词汇密集预测任务中取得了最新的最优性能。
Oct, 2023
在这篇论文中,我们提出了一种新颖的 ROI 视觉转换方法(ROI-ViT),通过多尺度交叉注意力融合生成和更新感兴趣区域(ROIs),从而解决了识别有害生物时的复杂背景和尺度问题,实验结果表明该方法相比其他先进模型表现更好,特别是在具有复杂背景和小尺寸的新数据集上保持了高的识别准确率。
Dec, 2023