SimVLM：简单的弱监督视觉语言模型预训练

Aug, 2021

SimVLM：简单的弱监督视觉语言模型预训练

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov...

TL;DR本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了SimVLM获得了强大的泛化和转移能力，实现了零-shot行为。

Abstract

With recent progress in joint modeling of visual and textual representations, vision-language pretraining (VLP) has achieved impressive performance on many multimodal downstream tasks. However, the requirement for expensive annotations including clean image captions and regional labels

发现论文，激发创造

图像字幕和VQA统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层Transformer网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

MiniVLM: 一个更小更快的视觉语言模型

本文提出MiniVLM，一个轻量、快速的视觉-语言模型，采用two-stage efficient feature extractor和MiniLM结构。MiniVLM与大型模型相比，模型大小减少73％，推理时间成本降低94％，在多个视觉-语言任务上准确率保持94-97％。希望MiniVLM可以用于边缘应用。

Dec, 2020

视觉语言预训练模型：一项调查

本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功，着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略，并提出了未来三个方向的研究建议。

Apr, 2022

VL-BEiT: 生成式视觉-语言预训练

提出了一种称为VL-BEiT的视觉语言基础模型，使用生成预训练学习的双向多模态Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明，VL-BEiT在各种视觉语言基准测试中能够获得强大的结果，并学习到可转移的视觉特征，实现了在图像分类和语义分割上有着竞争性的表现。

Jun, 2022

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉-语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的EfficientVLM模型仅含有9300万个参数，具有98.4％的性能表现，并在各种视觉-语言任务中取得了令人瞩目的结果。

Oct, 2022

SimVLG: 简单高效的视觉语言生成模型预训练

本文提出了“SimVLG”——一种用于预训练计算密集型视觉语言生成模型的简化框架，利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段，从而实现了快速收敛而不损失性能。实验证明，我们的方法可以将视觉语言模型的训练速度提高5倍，而整体性能几乎没有明显影响。此外，我们展示了我们的模型只需原数据的十分之一即可达到与当前视觉语言模型相当的性能。最后，我们通过一种新颖的软性注意力时序标记合并模块展示了如何轻松将我们的图像-文本模型应用于视频-语言生成任务。

Oct, 2023

VL-GPT：用于视觉与语言理解与生成的生成式预训练Transformer模型

VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

稀疏视觉语言模型：视觉标记稀疏化以提高视觉语言模型推理效率

本研究针对现有视觉语言模型中视觉标记消耗大量计算资源的问题，提出了一种不需要额外训练的数据的有效标记优化机制SparseVLM。实验结果表明，该方法在多种图像和视频理解任务中显著提升了效率，尤其是LLaVA模型在保持较高准确率的同时，FLOPs减少了61%至67%，压缩率达到78%。

Oct, 2024

SparseVLM：用于高效视觉-语言模型推理的视觉令牌稀疏化

本研究针对视觉-语言模型中视觉令牌占用大量计算资源的问题，提出了一种无额外训练的数据的高效令牌优化机制SparseVLM。该方法通过自注意力矩阵中的相关文本令牌选择视觉令牌的显著性，逐步修剪无关令牌，显著提高了多个视觉-语言模型在图像和视频理解任务中的效率，同时保持了高准确率。

Oct, 2024