VL-BEiT: 生成式视觉-语言预训练
本研究引入一个新的预可训练的通用视觉语言表示方法——Visual-Linguistic BERT,它采用了简单而强大的Transformer模型作为骨干网络,并将视觉和语言嵌入特征扩展为输入。通过在大规模的Conceptual Captions数据集上进行文本预训练,VL-BERT可以适配大多数视觉语言下游任务,并在可视化常识推理、视觉问答、指称理解等下游任务中取得了不错的效果。
Aug, 2019
本文提出了一个统一的视觉语言预训练模型,采用共享的多层Transformer网络进行编码和解码,通过两个任务的无监督学习目标对大量的图像文本对进行预训练,使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。
Sep, 2019
本文提出了一种简约的视觉语言模型(Simple Visual Language Model)普及方法,使用大规模的弱监督数据,通过单一前缀语言建模目标进行端到端训练,并在不利用额外数据或任务特定的定制的情况下,在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果,还展示了SimVLM获得了强大的泛化和转移能力,实现了零-shot行为。
Aug, 2021
本文综述了视觉-语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
本文介绍了通用的多模态基础模型BEiT-3,通过三个方面的改进:骨干架构、预训练任务和模型扩展,实现了在视觉和视觉语言任务上的最先进转移性能。
Aug, 2022
本文研究多模态智能领域的视觉-语言预训练方法,分为三类分类,包含图像-文本、核心计算机视觉和视频-文本任务,针对每类任务,提出了针对性的方法,分别探究了研究进展和存在的挑战并讨论了更先进的主题。
Oct, 2022
本篇论文提出了一种基于变压器的联合视觉与语言模型,名为MAGVLT,它可以生成图像和文本序列,并且相对于以前的模型具有双向上下文编码和更快的并行词汇预测等优点。经过实验证明,MAGVLT可以在零样本情况下使用较小的模型(少于500M参数)在 MS-COCO 数据集上取得很好的成果。
Mar, 2023
本文提出了一种名为ViLTA的新方法,由两个组件组成,旨在进一步促进模型在图像和文本对之间学习细粒度表示,采用交叉蒸馏方法生成软标签以提高模型的稳健性,并利用上下文合成硬负样本来增加图像-文本匹配的难度,从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了ViLTA的有效性和其在视觉语言预训练中的潜力。
Aug, 2023
本文提出了“SimVLG”——一种用于预训练计算密集型视觉语言生成模型的简化框架,利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段,从而实现了快速收敛而不损失性能。实验证明,我们的方法可以将视觉语言模型的训练速度提高5倍,而整体性能几乎没有明显影响。此外,我们展示了我们的模型只需原数据的十分之一即可达到与当前视觉语言模型相当的性能。最后,我们通过一种新颖的软性注意力时序标记合并模块展示了如何轻松将我们的图像-文本模型应用于视频-语言生成任务。
Oct, 2023
VL-GPT是一种同时感知和生成视觉和语言数据的变压器模型,通过采用直观的自回归目标,实现了图像和文本两种模态的统一预训练方法,从而使模型可以像处理文本一样无缝地处理图像和文本。预训练完成后,VL-GPT在包括图像字幕生成、视觉问答、文本到图像生成等多样的视觉和语言理解以及生成任务中表现出了令人瞩目的零样本和少样本性能。
Dec, 2023