增强视觉语言模型的未屏蔽令牌对齐

May, 2024

增强视觉语言模型的未屏蔽令牌对齐

Enhancing Vision-Language Model with Unmasked Token Alignment

Jihao Liu, Jinliang Zheng, Boxiao Liu, Yu Liu, Hongsheng Li

TL;DRContrastive pre-training techniques like CLIP are computationally demanding, while Unmasked Token Alignment (UTA) leverages CLIP models to enhance vision-language representations with a Vision Transformer (ViT) that does not require training on image-text pairs, outperforming existing methods.

Abstract

contrastive pre-training on image-text pairs, exemplified by clip, becomes a standard technique for learning multi-modal visual-language represen

clip contrastive pre-training multi-modal visual-language representations unmasked token alignment vision transformer (vit)

发现论文，激发创造

MVP: 多模态引导的视觉预训练

本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法，该方法利用来自其他几个模态的指导信息对图像进行预训练，取代了 Vision Transformer 中的 tokenizer，并在一系列下游视觉识别任务中取得了显著优越的效果。

Mar, 2022

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023

UC2: 通用跨语言跨模态视觉语言预训练

UC2 是第一个基于机器翻译增强的框架，用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集，通过机器翻译引入了其他语言的图像标题，然后将标准的 Masked Language Modeling 和 Image-Text Matching 训练目标扩展到多语言环境，通过共享视觉上下文（即使用图像作为枢纽）来捕获不同语言之间的对齐。最终我们提出了两个新的预训练任务，Masked Region-to-Token Modeling（MRTM）和 Visual Translation Language Modeling（VTLM），以加快图像和所有感兴趣语言的联合嵌入空间的学习。在多语言图像文本检索和多语言视觉问答基准上的评估表明，我们的提议框架在各种非英语基准上实现了新的最先进状态，并在英语任务上保持与单语预训练模型相当的性能。

Apr, 2021

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

无监督视觉语言模型的原型适配器

我们设计了一种名为 Unsupervised Prototype Adapter (UP-Adapter) 的无监督微调方法，通过利用 CLIP 的文本 - 图像对齐能力自动选择每个类别中最有信心的样本，并利用这些选择的样本生成类别原型，用于可学习的原型模型的初始化。经过微调后，通过剩余连接将原型模型的预测与原始 CLIP 的预测相结合，用于执行下游识别任务。我们在图像识别和领域泛化方面的大量实验结果表明，所提出的无监督方法在 8-shot CoOp、8-shot Tip-Adapter 以及最先进的 UPL 方法上都取得了显著优势。

Aug, 2023

动态离散视觉标记的统一语言 - 视觉预训练

最近，大型语言模型的显著进展激发了研究人员将其非凡的推理能力转移到多个模态的数据上。本文通过在统一的表示中同时表达视觉和语言，突破了仅以视觉内容作为提示并专注于优化文本生成过程的限制。通过一个将非语言图像转换为 LLM 可以阅读的一系列离散标记的视觉分词器，LaVIT (Language-VIsion Transformer) 可以在统一的生成学习范式下无差别地处理图像和文本。在网上规模图像 - 文本语料库上预训练的 LaVIT 具有令人印象深刻的多模态理解能力。广泛的实验表明，它在下游任务上的性能超过现有模型很多。我们的代码和模型将在此 https URL 上提供。

Sep, 2023

AnoVL：面向统一零样本异常定位的视觉语言模型适应

使用 Contrastive Language-Image Pre-training (CLIP) 模型进行零样本异常检测，通过学习自然语言监督下的视觉表示，构建文本提示与全局图像级别表示之间的对应关系，采用训练自由的价值关注机制提取 CLIP 的内在局部标记以进行精确定位，设计一个统一的领域感知对比状态提示模板，通过测试时的自适应机制进一步优化异常定位结果。

Aug, 2023

TIMA: 文本 - 图像相互感知的零样本鲁棒性与泛化能力平衡

通过引入一种新的文本图像相互感知（TIMA）方法，这项工作提出了一种旨在在大规模基础模型中实现零 - shot 对抗鲁棒性并保持零 - shot 泛化的挑战，重点关注流行的对比语言图像预训练（CLIP）模型。该方法在小型对抗扰动下在零 - shot 对抗鲁棒性和泛化之间取得了可比的良好权衡，但在大型对抗扰动下未能实现良好的权衡。该方法在文本嵌入之间增加了最小超球能量（MHE）以提高文本嵌入的跨类别距离，并利用知识蒸馏保持了 MHE 调整后和原始文本嵌入之间的相似性，以保留不同类别之间的语义信息。此外，该方法还引入了一种文本感知图像（TAI）调整机制，在训练阶段通过基于文本距离的自适应边界（TAM）增加了图像嵌入之间的跨类别距离，并利用知识蒸馏保持了 Fine-tuning 后和预训练图像嵌入之间的相似性。广泛的实验结果证明了该方法的有效性，在防御各种对抗扰动的同时，保持了原始 CLIP 模型的零 - shot 泛化能力。

May, 2024

UNITER: 通用图像文本表示学习

本研究引入了 UNITER，一种通过对四个图像 - 文本数据集（COCO，Visual Genome，Conceptual Captions 和 SBU Captions）进行大规模预训练学习的 UNiversal image-text representation，其可为异构下游 V + L 任务提供联合多模态嵌入。

Sep, 2019