RLIPv2：关系式语言 - 图像预训练的快速扩展

ICCVAug, 2023

RLIPv2：关系式语言 - 图像预训练的快速扩展

RLIPv2: Fast Scaling of Relational Language-Image Pre-training

Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan...

TL;DR提出了一个快速收敛的模型，通过引入不对称语言 - 图像融合机制，以稀疏的语言编码层促进更早和更深的门控跨模态融合，从而实现对大规模伪标记场景图数据的关系预训练的扩展。进行了大量实验，表明该模型在三个基准测试中均取得了最先进的性能。

Abstract

relational language-image pre-training (RLIP) aims to align vision representations with relational texts, thereby advancing the capability of relational reasoning in computer vision tasks. However, hindered by th

relational language-image pre-training relational reasoning scaling rlipv1 asymmetric language-image fusion scene graph data

发现论文，激发创造

ALIP: 自适应语言图像预训练与合成字幕

通过生成综合信息的合成字幕并动态调整样本权重，自适应对比损失有效降低噪音数据的影响并增强预训练数据效率，Adaptive Language-Image Pre-training (ALIP) 在不同规模模型和预训练数据集上进行了实验验证，并在多个下游任务中取得了最先进的性能，包括零样本图像 - 文本检索和线性探测。

Aug, 2023

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022

HiVLP: 面向快速图像 - 文本检索的分层视觉语言预训练

本文提出了一种用于快速图像 - 文本检索的 Hierarchical Vision-Language Pre-Training（HiVLP）方法，具有快速推理速度和可扩展性，并能够在大规模检索场景下进行优化表现，在 Flickr30k 和 COCO 数据集上展示了 + 4.9AR 和 + 3.8AR 的性能优势。

May, 2022

NLIP: 噪声鲁棒性语言 - 图像预训练

本文提出了一种基于噪声抵抗的语言 - 图像预训练框架（NLIP），通过噪音协调和噪音补全两种方案来自动稳定预训练，以更有效地减轻图像文本预训练期间的常见噪声影响。通过协同优化噪音协调和噪音补全方案，NLIP 在零样本分类、MSCOCO 图像字幕和零样本图像文本检索任务上，仅使用 26M 数据就显示出与现有预训练模型（如 CLIP、FILIP 和 BLIP）相比的显着性能提高。

Dec, 2022

PLIP: 人物表示学习的语言图像预训练

该研究提出了一种新的预训练框架用于人物表征学习，名为 PLIP，其中包括三个预文本任务：图像着色、属性预测和视觉 - 语言匹配，在一个新的大规模人物数据集 SYNTH-PEDES 上对其进行了评估并取得了优于先前方法的效果。

May, 2023

GLIPv2: 统一定位和视觉语言理解

GLIPv2 是一个基于视觉语言的预训练模型，将定位预训练与语言视觉预训练相结合，并具有短语地基、区域 - 单词对比学习和遮蔽语言建模三个预训练任务。该模型在各种定位和理解任务上表现接近最好的水平，同时也显示了强的零件和少量样本识别性能，以及优异的理解能力。

Jun, 2022

ULIP-2: 面向可伸缩的多模态 3D 预训练

ULIP-2 是一个用于 3D 表示学习的多模态预训练框架，它创建了包含图像、语言和 3D 点云的三模态三元组数据集，拥有更强的可扩展性和综合性，并利用大型语言模型自动生成全面的 3D 对象语言描述来提高多模态预训练的效果，并在 ModelNet40 和 ScanObjectNN 等数据集上取得了令人瞩目的结果。

May, 2023

DetCLIPv2: 通过词区对齐实现可伸缩的开放式目标检测预训练

本文介绍了一种名为 DetCLIPv2 的训练框架，该框架采用大规模图像 - 文本对以实现开放词汇目标检测。DetCLIPv2 直接从海量图像 - 文本对中学习了细粒度的单词 - 区域对齐，并通过融合来自检测、定位和图像 - 文本对数据的混合监督进行训练。DetCLIPv2 采用交替方案和低分辨率输入有效地利用了图像 - 文本对数据，取得了超过之前工作的表现。

Apr, 2023

CatLIP: 在 Web 规模的图文数据上 2.7 倍速度预训练的 CLIP 级别视觉识别准确性

通过对网络规模的图像文本数据进行弱监督预训练，本论文提出了一种消除对比损失中成对图像和文本相似性计算的需要的方法，在训练速度上取得了显著的 2.7 倍加速。通过广泛的实验证明，该方法在各种视觉任务中具有高质量的表征。

Apr, 2024

ELIP: 有效的语言图像预训练模型，减少视觉令牌

我们在有限的计算预算下，研究了高效的语言 - 图像预训练方法，提出了一种基于语言输出监督的视觉记号剪枝和合并方法。我们的实验表明，通过在 12 个 ViT 层上去除约 30% 的视觉记号，我们的方法能够在各种下游任务中保持与基准模型相当的性能，同时节约了 GPU 资源，加速了模型的预训练过程。

Sep, 2023