视觉-语言预训练模型综述

Feb, 2022

A Survey of Vision-Language Pre-Trained Models

Yifan Du, Zikang Liu, Junyi Li, Wayne Xin Zhao

TL;DR本文综述了视觉-语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Abstract

As Transformer evolved, pre-trained models have advanced at a breakneck pace in recent years. They have dominated the mainstream techniques in natural language processing (NLP) and computer vision (CV). How to adapt pre-training to the field of Vision-and-Language (V-L) learning and im

发现论文，激发创造

多模态预训练揭示：视觉和语言 BERT 的元分析和统一框架

本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验，分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言BERT的差异进行经验研究，揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因，同时将两类网络统一在同一理论框架之下，指出embedding layer在这些模型中具有至关重要的作用。

Nov, 2020

VLP：视觉语言预训练综述

本文调查了最近关于视觉-语言预训练 (VLP) 的进展和新前沿。这是第一篇关注VLP的综述文章，并对VLP模型做了具体总结，旨在为VLP领域的未来研究提供启示。

Feb, 2022

视觉语言预训练模型：一项调查

本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功，着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略，并提出了未来三个方向的研究建议。

Apr, 2022

视觉与语言预训练

本篇研究综述了当下Vision-and-Language领域内的预训练模型，并归纳总结了相关预训练技术、训练集以及下游任务。同时，文章还讨论了未来研究的多个方向。

Jul, 2022

如何将预训练的视觉语言模型改编为仅文本输入模式？

为了找到最好的方法来将视觉和语言(VL)多模态预训练模型适应于仅文本输入，我们研究并比较了适应VL模型到文本输入的七种可能的方法。我们的评估结果表明，对于零样本文本-only任务，VL模型需要小心适应，而对于非零样本任务，模型对适应方法不敏感。我们还发现，对于不同的模型，适应方法的表现各不相同，而单模态模型趋同于VL模型，提示当前的VL模型不一定从其多模态训练中获得更好的语言理解。

Sep, 2022

视觉-语言预训练：基础、最新进展和未来趋势

本文研究多模态智能领域的视觉-语言预训练方法，分为三类分类，包含图像-文本、核心计算机视觉和视频-文本任务，针对每类任务，提出了针对性的方法，分别探究了研究进展和存在的挑战并讨论了更先进的主题。

Oct, 2022

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

视觉语言变换器：一项调研

视觉语言任务中，基于预训练的变压器架构在视觉语言建模方面表现出色，为视觉和语言结合的任务带来了类似的进展。

Jul, 2023

VL-GPT：用于视觉与语言理解与生成的生成式预训练Transformer模型

VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型，通过采用直观的自回归目标，实现了图像和文本两种模态的统一预训练方法，从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后，VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。

Dec, 2023

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024