图像字幕和VQA统一视觉语言预训练
本文提出了一种用于视觉和语言理解与生成的端到端的视觉-语言预训练模型 E2E-VLP,其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐,同时通过将目标检测和图像字幕生成任务整合到预训练中,采用统一的编码-解码结构增强了视觉学习。在广泛的视觉-语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。
Jun, 2021
本文提出了一种简约的视觉语言模型(Simple Visual Language Model)普及方法,使用大规模的弱监督数据,通过单一前缀语言建模目标进行端到端训练,并在不利用额外数据或任务特定的定制的情况下,在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果,还展示了SimVLM获得了强大的泛化和转移能力,实现了零-shot行为。
Aug, 2021
本研究介绍了LEMON,一个大规模图像描述生成模型,探究了基于视觉-语言预训练的transformer模型在图像描述生成中的可扩展性,并使用大量数据和不同训练方法对其进行了实验和分析,取得了多个数据集上的最新成果。
Nov, 2021
本文调查了最近关于视觉-语言预训练 (VLP) 的进展和新前沿。这是第一篇关注VLP的综述文章,并对VLP模型做了具体总结,旨在为VLP领域的未来研究提供启示。
Feb, 2022
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
提出了一种称为VL-BEiT的视觉语言基础模型,使用生成预训练学习的双向多模态Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明,VL-BEiT在各种视觉语言基准测试中能够获得强大的结果,并学习到可转移的视觉特征,实现了在图像分类和语义分割上有着竞争性的表现。
Jun, 2022
本文研究多模态智能领域的视觉-语言预训练方法,分为三类分类,包含图像-文本、核心计算机视觉和视频-文本任务,针对每类任务,提出了针对性的方法,分别探究了研究进展和存在的挑战并讨论了更先进的主题。
Oct, 2022
该论文提出一种名为TL;DR的视觉语言学习算法,它利用基于编码器-解码器的编码器来选择代表性样本,并生成新的标题,旨在将现有的大规模VLP数据压缩为小高质量数据集。实验证明,使用TL;DR压缩后的数据集能够在许多下游任务中提供与完整数据集相似或甚至更好的结果。
May, 2023
本文提出一种简单而有效的方法,利用多语言预训练语言模型(MPLM)和跨语言上下文化词嵌入对 VLP 进行了调整和适应,以在未见过的语言上具有出色的表现,而无需大量平行语料库。
Jun, 2023
本文提出了一种名为ViLTA的新方法,由两个组件组成,旨在进一步促进模型在图像和文本对之间学习细粒度表示,采用交叉蒸馏方法生成软标签以提高模型的稳健性,并利用上下文合成硬负样本来增加图像-文本匹配的难度,从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了ViLTA的有效性和其在视觉语言预训练中的潜力。
Aug, 2023