对比视觉语言预训练
本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估,取得了在无监督设置下的最佳性能。
Mar, 2022
该研究提出了 RC^3 pre-training 方法,该方法利用弱对齐的多语言图像 - 文本对进行跨语言、跨模态的视觉 - 语言预训练,并在下游的多模态任务中表现出更强的效果。
May, 2023
本文调查了最近关于视觉 - 语言预训练 (VLP) 的进展和新前沿。这是第一篇关注 VLP 的综述文章,并对 VLP 模型做了具体总结,旨在为 VLP 领域的未来研究提供启示。
Feb, 2022
本研究主要探讨了视觉与语言的联合预训练,提出了一种名为 CAVL 的视觉和语言的对比和自适应表示简单有效的方法。在下游任务中,我们将其应用于包括 VQA,VCR,NLVR,RPG,TIR 和 ZS-TIR 在内的六项主要任务中,并与基准模型进行比较,结果表明我们的方法具有明显的优势。
Apr, 2023
本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示,结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型,因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。
Sep, 2021
本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP,其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐,同时通过将目标检测和图像字幕生成任务整合到预训练中,采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。
Jun, 2021
通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐,我们提出了 CG-VLM 模型,有效地实现了视觉 - 语言的对齐,成为一种高效的指令学习器。
Nov, 2023
ViLBERT 是一种用于学习图像内容和自然语言的任务不可知联合表示的模型,并通过在多模态两个流中处理图像和文本输入,通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型,然后通过仅对基础体系结构进行轻微添加,将其转移到多个已建立的视觉语言任务 —— 视觉问答、视觉常识推理、指称表达和基于字幕的图像检索,我们观察到与现有特定任务模型相比,在所有四个任务中都实现了显着的改进,成为学习视觉与语言之间接地只作为任务培训的一部分,而不是对待视觉接地作为可预训练和可转移能力的代表性工作。
Aug, 2019
本文结合视觉和语言的跨语言预训练方法,使用三重并行视觉和语言语料库进行预训练,并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。
Jan, 2021
本研究引入一个新的预可训练的通用视觉语言表示方法 ——Visual-Linguistic BERT,它采用了简单而强大的 Transformer 模型作为骨干网络,并将视觉和语言嵌入特征扩展为输入。通过在大规模的 Conceptual Captions 数据集上进行文本预训练,VL-BERT 可以适配大多数视觉语言下游任务,并在可视化常识推理、视觉问答、指称理解等下游任务中取得了不错的效果。
Aug, 2019