BLIP-2：使用冻结图像编码器和大型语言模型引导语言图像预训练

Jan, 2023

BLIP-2：使用冻结图像编码器和大型语言模型引导语言图像预训练

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi

TL;DR本文提出 BLIP-2，一种通用且高效的预训练策略，通过使用冻结的图像编码器和大型语言模型来引导视觉语言表示学习，从而实现零样本图像到文本的生成。BLIP-2 在各种视觉语言任务上取得了最先进的性能。

Abstract

The cost of vision-and-language pre-training has become increasingly prohibitive due to end-to-end training of large-scale models. This paper proposes blip-2, a generic and efficient pre-training strategy that bo

vision-and-language pre-training blip-2 image encoder language model zero-shot

发现论文，激发创造

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022

高效多语言视觉 - LLMs 引导程序的启动

通过利用机器翻译产生多语言数据来实现对预训练的多语言 LLM 的图像编码器的重新对准，从而在消费者硬件上使用少量训练数据来获得第一款多语言 Vision-LLM，与从头开始训练的大规模 Vision-LLM 相比表现出色。

Jul, 2023

解耦语言预训练引导视觉 - 语言学习

该论文提出了一种新的方法，使用 Prompt-Transformer 模型，基于语言数据而不是图像 - 文本配对来预测理想 prompts，从而优化了资源密集型视觉语言预训练过程，提高了大语言模型的性能。

Jul, 2023

MedBLIP: 从 3D 医疗影像和文本数据进行语言 - 图像预训练的自举方法

本文提出了 MedBLIP，这是一个轻量级的 CAD 系统，利用预训练的图像编码器和语言模型，结合维度转换，对医学图像扫描和电子医疗记录中的文本描述进行预训练，最终在 Alzheimer's 病例分类和医学 VQA 领域表现出 SOTA 性能。

May, 2023

冻结的 CLIP 模型是高效的视频学习者

本文提出 Efficient Video Learning (EVL) 框架，使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征，进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型，本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。

Aug, 2022

InstructBLIP：通过指导微调实现通用的视觉 - 语言模型

本研究系统全面地研究了基于预训练系统的 BLIP-2 视觉语言模型的指导调整方法。通过构建 InstructBLIP 模型和使用指导语音特征提取，该模型在 13 个测试集上全面超越 BLIP-2 和更大的 Flamingo 模型，在单个下游任务的微调中获得了最先进的性能。

May, 2023

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

具有预训练视觉语言模型的类别增量学习

通过在图像编码器之后或文本编码器之前在预训练的 CLIP 模型上增加附加层，我们提出了一种利用预训练视觉 - 语言模型进行进一步调整的方法，从而使其能够适应新任务而不仅仅是零样本学习。我们对线性适配器、自注意适配器以及修改 CLIP 文本编码器输入的提示调整进行了研究。此外，我们还提出了一种参数保留的方法，通过衡量参数重要性，在增量学习过程中更好地保持稳定性和可塑性。实验证明，最简单的解决方案 —— 一个具有参数保留的线性适配器层，获得了最佳结果。多个常规基准实验一致表明这种方法显著改进了现有技术水平。

Oct, 2023

LiteVL：增强空间 - 时间建模的高效视频 - 语言学习

本文提出 LiteVL 模型，结合 BLIP 图像语言模型，通过使用动态时态缩放，给图像编码器添加时间注意力模块，并提出非参数池化机制，以自适应地重新加权文本条件下的细粒度视频嵌入，取得了良好的性能，即使没有进行任何视频 - 语言预训练。

Oct, 2022

LightCLIP：轻量级视觉语言模型的多层交互学习

本文介绍了一种用于训练轻量级 CLIP 模型的多级交互范式，包括改进的全局实例级对齐目标、基于放松二分匹配的令牌级对齐目标以及使用遮蔽语言建模的额外目标。实验结果表明，该方法在多个下游任务中实现了更高的性能。

Dec, 2023