面向语言 - 图像预训练的居中掩蔽

Mar, 2024

面向语言 - 图像预训练的居中掩蔽

Centered Masking for Language-Image Pre-Training

Mingliang Liang, Martha Larson

TL;DR我们介绍了用于语言 - 图像预训练的高斯掩模化 (GLIP) 技术，它是一种新颖、直接且有效的技术，在预训练视觉 - 语言模型期间屏蔽图像补丁。GLIP 基于快速语言 - 图像预训练 (FLIP)，在训练 CLIP 模型时随机屏蔽图像补丁。GLIP 用高斯分布替换了随机屏蔽，并受到图像中心补丁的重要性启发。GLIP 与 FLIP 具有相同的计算节约效果，并通过我们的实验结果在一系列下游数据集和任务中改善了性能。我们展示了获得 GLIP 的好处容易，不需要对高斯进行精细调整，并适用于包含没有明显中心焦点的图像数据集。

Abstract

We introduce gaussian masking for language-image pre-training (GLIP) a novel, straightforward, and effective technique for masking image patches during pre-training of a →

gaussian masking language-image pre-training vision-language model centered masking downstream datasets

发现论文，激发创造

高效的视觉 - 语言预训练：基于聚类遮挡

我们提出了一种简单的策略，用于在视觉语言对比学习中遮盖图像补丁，从而提高所学表示的质量和训练速度。该策略随机遮盖视觉上相似的图像补丁群集，并通过强制模型仅根据上下文预测遮盖的视觉结构的单词，提供额外的学习信号，从而超过其他遮盖策略（如 FLIP）在所学表示的质量方面表现良好，并且通过减少每个图像中使用的数据来加速训练。

May, 2024

基于图像的语言预训练

本文提出了一种基于图像和语言语境的预训练 (GLIP) 模型，它可以同时学习目标检测和短语 grounding 任务以提升自身性能，并利用海量的图像文本对进行自我训练，从而获得语义丰富的表示。实验结果表明，GLIP 的表示具有较强的零样本迁移能力和准确性，可在各种目标识别任务上实现最先进的结果。

Dec, 2021

MaskCLIP：屏蔽自蒸馏提升对比度语言 - 图片预训练

该文介绍了一个名为 MaskCLIP 的简单而又有效的框架，将一种新提出的掩码自蒸馏方法融入了对比语言 - 图像预训练中。该框架主要利用掩码自蒸馏方法学习局部信息传递，这对文本相关表示的对比学习起到补充作用，并且一定程度上能够从自然语言中得到间接监督。同时，在文本分支中也引入了局部语义监督来提高预训练性能，这个框架在不同的任务中取得了很好的效果。

Aug, 2022

MLIP: 高效多角度语言图像预训练与全面数据利用

通过引入频率转换和标记级别对齐的方法，提出了多视角语言 - 图像预训练（MLIP）来解决 CLIP 在数据利用效率方面的挑战，并通过标记合并方法来加快 CLIP 的速度。

Jun, 2024

MLIP：医学语言 - 图像预训练与遮蔽局部表示学习

本文旨在通过引入多对多局部关系建模来增强数据效率，从而更有效地利用有限的医学图像文本数据。我们提出了医学语言 - 图像预训练（MLIP）框架，通过补丁 - 句子匹配的方式更有效地利用图像 - 文本医学数据，同时引入遮蔽对比学习策略和语义完整性估计以减少图像中的冗余并保留其底层语义。我们的评估结果显示，MLIP 在零 / 少样本分类和少样本分割任务中表现出较大的优势。

Jan, 2024

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

CLIP 也是一位优秀的讲师：归纳式零样本语义分割的新学习框架

提出了一种名为 CLIPTeacher 的新学习框架，用于各种基于像素分类的分割模型，不引入任何显式的掩码建议者或更改 CLIP 的结构，并利用已知区域和忽略区域来取得较大的性能提升。

Oct, 2023

使用语言改写改善 CLIP 训练

本文提出了一种名为 LaCLIP 的新方法，通过语言重写增强 CLIP 的训练，具有语料丰富度高的特点，不需要额外的计算或内存负载，实现较高的图像 - 文本转移性能。

May, 2023

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021