SemVLP: 多层次语义对齐的视觉语言预训练
本文提出了一种用于视觉和语言理解与生成的端到端的视觉-语言预训练模型 E2E-VLP,其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐,同时通过将目标检测和图像字幕生成任务整合到预训练中,采用统一的编码-解码结构增强了视觉学习。在广泛的视觉-语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。
Jun, 2021
通过提出的全Transformer模型进行视觉-语言预训练(VLP),采用Inter-Modality Flow(IMF)指标和遮盖特征回归(MFR)优化机制来增强视觉关系和视觉-语言分析,同时在各种视觉语言任务中取得了明显的最佳性能。
Jun, 2021
本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架,其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率,并在广泛的视觉和语言任务上取得了竞争性的表现。
Sep, 2021
本文提出了一种基于多层语义对齐的视觉语言预训练(MVPTR)方法,通过内部多层次表示学习和不同粒度的跨模态语义对齐任务来学习概念表示,强调多模态、多层次的学习能够协同促进表示学习。
Jan, 2022
本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像-文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过VQA、NLVR2、Visual Entailment、RefCOCO+等下游任务的评估,取得了在无监督设置下的最佳性能。
Mar, 2022
利用对比损失进行的自监督视觉-语言预训练虽然有效,但由于双流体系结构仅在全局层面上对齐图像和文本表示法,因此忽略了细粒度对齐。本文提出了一种单通道体系结构,使用两个新任务在多个层次(即全局、细粒度图块-令牌和概念/语义层次)上对齐图像和语言,实现了更细粒度的对齐和更强大的数据效率,这两个新任务是对称跨模态重建和伪标签关键字预测。
Mar, 2022
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
本文提出一种名为跨模态CutMix(CMC)的数据增强方法,用于隐式的跨模态对齐学习,在没有对齐图像文本对的情况下从纯文本和图像语料库中学习。同时,该论文还提出了一种新的无对齐图像文本预训练方法,名为VLMixer,通过将CMC与对比学习相结合,可以更好地对齐不同视图中的实例。实验结果表明,VLMixer可以超过以前的无对齐VLP方法。
Jun, 2022
本文提出一种简单而有效的方法,利用多语言预训练语言模型(MPLM)和跨语言上下文化词嵌入对 VLP 进行了调整和适应,以在未见过的语言上具有出色的表现,而无需大量平行语料库。
Jun, 2023
我们提出了一个语义增强的视觉-语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉-语言任务中取得了最先进或有竞争力的性能。
Mar, 2024