X$^2$-VLM：图像和语言任务的多功能预训练模型

Nov, 2022

X$^2$-VLM：图像和语言任务的多功能预训练模型

X$^2$-VLM: All-In-One Pre-trained Model For Vision-Language Tasks

Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang...

TL;DR这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模块化架构，可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡，并显示了其高可转移性，可以在任何语言或领域中使用。

Abstract

vision language pre-training aims to learn alignments between vision and language from a large amount of data. We proposed multi-grained vision language pre-training, a unified approach which can learn vision lan

vision language pre-training multi-grained image-text tasks video-text tasks modular architecture

发现论文，激发创造

多层次视觉语言预训练：将文本与视觉概念对齐

提出了一种名为 X-VLM 的多粒度视觉语言预训练方法，通过定位图像中的视觉概念并将其与文本进行对齐，实现了多粒度对齐，并将其应用于下游视觉语言任务中取得了优秀的效果，并超越了现有的最先进方法。

Nov, 2021

Xmodel-VLM: 一个简单的多模态视觉语言模型基准

我们介绍了 Xmodel-VLM，这是一款先进的多模态视觉语言模型，旨在在消费级 GPU 服务器上进行高效部署。我们的工作直接应对了一个关键行业问题，即解决了巨大规模多模态系统普及所面临的高昂服务成本限制。通过严格的训练，我们从头开始开发了一个 10 亿级的语言模型，采用了 LLaVA 模式用于模态对齐。结果是，我们称之为 Xmodel-VLM 的模型，它既轻量又强大。通过在多个经典多模态基准测试中进行了全面的测试，我们发现尽管模型体积较小且执行速度更快，但 Xmodel-VLM 的性能与较大模型相当。我们的模型检查点和代码公开在 GitHub 上提供。

May, 2024

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

UniVL: 用于多模态理解和生成的统一视频与语言预训练模型

本论文提出了 UniVL：一种统一的视频和语言预训练模型，旨在为多模态理解和生成任务提供强大的视频和文本表示，并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件，最终在五个下游任务上实现了最新的成果。

Feb, 2020

VILA：关于视觉语言模型的预训练

通过逐步可控的比较，我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA，一系列视觉语言模型，无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性，包括多图像推理、增强的上下文学习和更好的世界知识。

Dec, 2023

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

SemVLP: 多层次语义对齐的视觉语言预训练

本文提出 SemVLP 预训练方法，通过单流预训练和双流预训练相结合，使用共享 Transformer 网络和可插入的跨模态注意模块，在不同的语义层次上对图像和文本进行联合对齐，以对齐跨模态表示，实验表明该方法可对齐不同语义粒度。

Mar, 2021

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021

VLM: 任务无关的视频语言模型预训练，用于视频理解

提供了一种简化、任务无关的多模态预训练方法，可以接受视频或文本输入，或两者皆可用于各种端任务。实验结果表明，在多种任务中表现出比以前的方法更强的性能，通常优于任务特定的预训练。

May, 2021

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023