使用统一条件模型的自训练视觉语言 BERTs
本文提出了一个统一的视觉语言预训练模型,采用共享的多层 Transformer 网络进行编码和解码,通过两个任务的无监督学习目标对大量的图像文本对进行预训练,使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。
Sep, 2019
通过无监督预训练实现视觉和语言模型的学习,使用 “mask-and-predict” 方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁,在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能,挑战了对于 V&L 预训练来说,对齐数据是必要的广泛看法,并显著减少了 V&L 模型的监督所需量。
Oct, 2020
本研究通过建立基于 BERT 模型的视觉 - 语言联合模型学习高级特征,提出了一种在无显式监督下学习高级特征的方法,并将其应用于多项任务,如动作分类和视频字幕生成等,取得了优越的成绩。
Apr, 2019
本研究探讨了图像与语言预训练是否可以提高模型在需要隐含视觉推理的文本任务上的性能,提出了一系列用于探测文本编码模型视觉推理能力的任务,并说明了采用多模态预训练方法可以提高文本编码器的性能。
Mar, 2023
提出了一种称为 VL-BEiT 的视觉语言基础模型,使用生成预训练学习的双向多模态 Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明,VL-BEiT 在各种视觉语言基准测试中能够获得强大的结果,并学习到可转移的视觉特征,实现了在图像分类和语义分割上有着竞争性的表现。
Jun, 2022
本研究引入一个新的预可训练的通用视觉语言表示方法 ——Visual-Linguistic BERT,它采用了简单而强大的 Transformer 模型作为骨干网络,并将视觉和语言嵌入特征扩展为输入。通过在大规模的 Conceptual Captions 数据集上进行文本预训练,VL-BERT 可以适配大多数视觉语言下游任务,并在可视化常识推理、视觉问答、指称理解等下游任务中取得了不错的效果。
Aug, 2019
本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model,并利用 pretraining 技术解决了 context-independent 问题,以达到比以前更好的效果。
Jun, 2023
本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估,取得了在无监督设置下的最佳性能。
Mar, 2022
VisualBERT 是一个简单灵活的框架,由一系列 Transformer 层组成,可以对输入的文本和相关的图像区域进行自我注意力对齐。该论文提出了两种针对预先训练 VisualBERT 的视觉语言模型目标,经过在四项视觉语言任务上的实验表明,VisualBERT 的表现优于或与最先进的模型不相上下,同时具有显著的简单性。进一步的分析表明,VisualBERT 可以将语言元素与图像区域相关联,而不需要任何明确的监督,并且甚至可以关注句法关系,例如跟踪动词与相应参数图像区域之间的关联。
Aug, 2019
ViLBERT 是一种用于学习图像内容和自然语言的任务不可知联合表示的模型,并通过在多模态两个流中处理图像和文本输入,通过相互关注变压器层实现交互。我们通过在大型自动收集的概念字幕数据集上执行两个代理任务来预训练我们的模型,然后通过仅对基础体系结构进行轻微添加,将其转移到多个已建立的视觉语言任务 —— 视觉问答、视觉常识推理、指称表达和基于字幕的图像检索,我们观察到与现有特定任务模型相比,在所有四个任务中都实现了显着的改进,成为学习视觉与语言之间接地只作为任务培训的一部分,而不是对待视觉接地作为可预训练和可转移能力的代表性工作。
Aug, 2019