图像作为外语:BEiT预训练模型用于所有视觉和视觉语言任务
本文提出了一种简约的视觉语言模型(Simple Visual Language Model)普及方法,使用大规模的弱监督数据,通过单一前缀语言建模目标进行端到端训练,并在不利用额外数据或任务特定的定制的情况下,在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果,还展示了SimVLM获得了强大的泛化和转移能力,实现了零-shot行为。
Aug, 2021
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
提出了一种称为VL-BEiT的视觉语言基础模型,使用生成预训练学习的双向多模态Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明,VL-BEiT在各种视觉语言基准测试中能够获得强大的结果,并学习到可转移的视觉特征,实现了在图像分类和语义分割上有着竞争性的表现。
Jun, 2022
FIBER是一个用于Vision Language(VL)的新型VL模型结构,通过将交叉注意力插入图像和文本骨干网络,将多模态融合深入到模型中,并使用两阶段预训练策略,可以在VL任务中提供一致的性能提升。
Jun, 2022
PaLI是一种简单、模块化和可扩展的神经网络模型,利用大规模预训练的encoder-decoder语言模型和Vision Transformers来实现视觉和语言的联合建模,并在多种语言的情况下生成文本并完成多模态任务,此外,通过基于包含超过100种语言的10B个图像和文本的新图片-文本训练集创建大规模多语言混合预训练任务,实现了多项视觉和语言任务的最新水平。
Sep, 2022
这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法,它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型,它采用了模块化架构,可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡,并显示了其高可转移性,可以在任何语言或领域中使用。
Nov, 2022
VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023