GLIPv2: 统一定位和视觉语言理解

MMJun, 2022

GLIPv2: Unifying Localization and Vision-Language Understanding

Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li...

TL;DRGLIPv2 是一个基于视觉语言的预训练模型，将定位预训练与语言视觉预训练相结合，并具有短语地基、区域 - 单词对比学习和遮蔽语言建模三个预训练任务。该模型在各种定位和理解任务上表现接近最好的水平，同时也显示了强的零件和少量样本识别性能，以及优异的理解能力。

Abstract

We present GLIPv2, a grounded VL understanding model, that serves both localization tasks (e.g., object detection, instance segmentation) and Vision-Language (VL) understanding tasks (e.g., VQA, image captioning). GLIPv2 elegantly unifies →

grounded visual understanding vision-language pretraining localization phrase grounding masked language modeling

发现论文，激发创造

基于图像的语言预训练

本文提出了一种基于图像和语言语境的预训练 (GLIP) 模型，它可以同时学习目标检测和短语 grounding 任务以提升自身性能，并利用海量的图像文本对进行自我训练，从而获得语义丰富的表示。实验结果表明，GLIP 的表示具有较强的零样本迁移能力和准确性，可在各种目标识别任务上实现最先进的结果。

Dec, 2021

在视觉 - 语言模型中实现交互式区域理解

通过引入具有明确区域建模能力的 RegionVLM 模型，并利用包含区域信息的 Localized Narratives 数据集，我们的实验表明，我们的单一通用模型不仅实现了交互式对话系统，还在各种零样本区域理解任务上展现出了卓越的性能，而不会损害其对全局图像的理解能力。

Mar, 2024

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

GRILL: 基于文本和图像区域对齐的视觉 - 语言预训练

本文介绍了一种名为 GRILL 的 VL 模型，能够通过利用物体 - 文本对齐来学习对象对齐与定位，从而在零个或很少的训练实例下，推广到各种零 / 几 - shot 任务，包括视觉问答、字幕和定位任务。评估表明，GRILL 模型 consistently surpasses 了现有的几种有限 / 几 - shot 方法。

May, 2023

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022

使用预训练方法改善视觉语言模型的地理包容性

提出了 Geographically Inclusive Vision-and-Language Pre-trained model（GIVL）的概念。GIVL 是一种视觉语言预训练模型，利用图像知识匹配（IKM）和图像编辑检查（IEC）两种新的预训练目标。与以类似数据规模预先培训的类似规模模型相比，GIVL 在地理多元化的视觉语言任务上表现出更好的性能平衡和最新技术水平（SOTA）。

Jan, 2023

UNIMO-2: 端到端的统一视觉语言基础学习

本文提出了一种联合学习视觉、文本和不对齐图像和文本语料库之间的符号对齐的端到端 UNIMO-2 统一模态预训练框架，采用 “基础学习” 方案，成功地提高了一些跨模态任务的性能与视觉和文本语义对齐。

Mar, 2022

GroundVLP：从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位

通过现有的图像 - 文本配对模型和纯物体检测数据，我们提出了一种名为 GroundVLP 的简单而有效的零样本方法，该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案，用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战，实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28％，并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。

Dec, 2023

E2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

VLTSeg: 用于领域泛化语义分割的基于 CLIP 的视觉 - 语言表示简单转移

本研究提出了一种基于视觉 - 语言模型的视觉语义分割方法，通过在源领域进行训练并在未见目标领域进行评估，提高了领域通用性。实验证明，该方法在域通用分割中的性能优于传统的视觉训练方法，取得了 7.6% mIoU 的提升。同时，在主流数据集上取得了 76.48% mIoU 的性能，超过了此前最优方法 6.9% mIoU 的水平。还表明该方法在领域内具有强大的泛化能力，并在当前排行榜上与最优方法并列第一。

Dec, 2023