Oscar: 面向视觉语言任务的对象 - 语义对齐预训练模型
基于检测导向的图像 - 文本预训练的新的开放词汇检测方法用于填补图像级预训练和开放词汇对象检测之间的差距,通过使探测器头从嘈杂的图像 - 文本对中学习,我们的方法能够利用对比损失学习到新出现的对象 - 语义线索,在 LVIS 和 COCO 基准测试中均获得了非常有竞争力的结果,并在转移检测设置中显著优于基线。
Sep, 2023
本文提出了一种 3D 视觉语言预训练框架 3DVLP,可以在 3D 视觉语言下游任务中有很好的表现,该框架考虑了场景中物体的关联性,提出了多个任务来实现对象级交叉对齐和区分,与任务特定方法相比具有更好的泛化性能。
May, 2023
本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers,使用边界框和物体标签来引导训练过程,将对象表示法引入视频 - 语言架构中,从而提高了视频文本匹配任务的性能。
Dec, 2021
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在 LVIS 等新类别上实现了 32.0%的 mAP 和 21.7%的掩膜 mAP 等卓越性能。
Nov, 2022
本文提出 SemVLP 预训练方法,通过单流预训练和双流预训练相结合,使用共享 Transformer 网络和可插入的跨模态注意模块,在不同的语义层次上对图像和文本进行联合对齐,以对齐跨模态表示,实验表明该方法可对齐不同语义粒度。
Mar, 2021
通过无监督预训练实现视觉和语言模型的学习,使用 “mask-and-predict” 方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁,在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能,挑战了对于 V&L 预训练来说,对齐数据是必要的广泛看法,并显著减少了 V&L 模型的监督所需量。
Oct, 2020
本文提出了一种弱监督的预训练方法 oCLIP,该方法通过联合学习视觉和文本信息来获取有效的场景文本表示,并能从弱注释文本中学习,可以有效地应对 OCR 任务。实验证明,该方法在多个公共数据集上都优于现有的预训练技术。
Mar, 2022
本文提出了一种基于图像和语言语境的预训练 (GLIP) 模型,它可以同时学习目标检测和短语 grounding 任务以提升自身性能,并利用海量的图像文本对进行自我训练,从而获得语义丰富的表示。实验结果表明,GLIP 的表示具有较强的零样本迁移能力和准确性,可在各种目标识别任务上实现最先进的结果。
Dec, 2021
通过提取图像和文本特征,我们提出了一种简洁的方法来更好地对齐图像和文本,并通过多标签分类损失补充常用的图像 - 文本对比损失,以提高视觉 - 语言模型的性能。这种方法能够自动解析描述中的对象和属性,并使模型准确定位具有特定属性的对象。
Dec, 2023
通过预测图像与文本配对来预训练计算机视觉系统,使其可以从自然语言描述中直接学习视觉概念,从而实现零样本迁移,并在多个计算机视觉任务上展现出竞争力。
Feb, 2021