图像字幕生成的视觉语言预训练规模化提升
本文提出了一个统一的视觉语言预训练模型,采用共享的多层Transformer网络进行编码和解码,通过两个任务的无监督学习目标对大量的图像文本对进行预训练,使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。
Sep, 2019
通过 VIVO 预训练模型,该论文提出了一种使用无注释图像和标签数据进行预训练的方法,通过预训练一个多层转换器模型来学习视觉词汇,并验证了其在图像字幕生成中的有效性。
Sep, 2020
本文提出MiniVLM,一个轻量、快速的视觉-语言模型,采用two-stage efficient feature extractor和MiniLM结构。MiniVLM与大型模型相比,模型大小减少73%,推理时间成本降低94%,在多个视觉-语言任务上准确率保持94-97%。希望MiniVLM可以用于边缘应用。
Dec, 2020
通过松弛Conceptual Captions 3M (CC3M) [Sharma et al. 2018]数据收集流程,我们引入了Conceptual 12M(CC12M)数据集,并通过针对长尾视觉识别的多个下游任务基准测试其有效性,结果表明增加预训练数据规模会使视觉和语言任务更加有效。
Feb, 2021
本文提出了一种简约的视觉语言模型(Simple Visual Language Model)普及方法,使用大规模的弱监督数据,通过单一前缀语言建模目标进行端到端训练,并在不利用额外数据或任务特定的定制的情况下,在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果,还展示了SimVLM获得了强大的泛化和转移能力,实现了零-shot行为。
Aug, 2021
本文研究多模态智能领域的视觉-语言预训练方法,分为三类分类,包含图像-文本、核心计算机视觉和视频-文本任务,针对每类任务,提出了针对性的方法,分别探究了研究进展和存在的挑战并讨论了更先进的主题。
Oct, 2022
该论文提出一种名为TL;DR的视觉语言学习算法,它利用基于编码器-解码器的编码器来选择代表性样本,并生成新的标题,旨在将现有的大规模VLP数据压缩为小高质量数据集。实验证明,使用TL;DR压缩后的数据集能够在许多下游任务中提供与完整数据集相似或甚至更好的结果。
May, 2023
本文通过仔细匹配训练数据、计算和模型容量,公平地比较了对比预训练和图像字幕等两种预训练策略,并发现仅采用图像字幕训练也很有效,既可以产生与对比预训练编码器竞争的视觉编码器,也可以在视觉和语言任务上超越它们。
Jun, 2023
本研究解决了在使用网络数据进行视觉语言模型预训练时的噪声和不完整性问题,提出了一种名为NEVLP的抗噪框架,使得所需的预训练数据量减少。通过创新的噪声自适应学习和概念增强学习策略,该框架在充分利用噪声数据的同时,实现了在多种视觉语言任务上达到最先进的性能。
Sep, 2024
本研究解决了视觉语言模型在大规模网络数据中存在噪声和不完整性的问题,提出了NEVLP框架,通过引入噪声自适应学习和概念增强学习策略,减少对海量预训练数据的依赖。研究表明,该框架在多种视觉语言任务中表现出色,实现了更高的效率和性能。
Sep, 2024