本文介绍了一种基于目标检测的图像-文本预训练学习方法Oscar,通过使用在图像中检测到的目标标签作为锚点,显著简化模型中的图像与文本的语义对齐,使其在六个视觉-语言理解和生成任务中创造了新的最好成果。
Apr, 2020
本文提出SemVLP预训练方法,通过单流预训练和双流预训练相结合,使用共享Transformer网络和可插入的跨模态注意模块,在不同的语义层次上对图像和文本进行联合对齐,以对齐跨模态表示,实验表明该方法可对齐不同语义粒度。
Mar, 2021
本文提出 VL distillation,使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型,以提高图像字幕生成和视觉问答任务中的性能。
Apr, 2021
该研究提出一种名为SOHO的视觉-语言预训练模型,采用卷积神经网络和Transformer联合训练的方法,基于整个图像进行学习,并使用视觉字典的方法提取综合而紧凑的图像特征,来实现跨模态的对齐和理解。在四个视觉-语言任务上进行了实验,相对于目前最先进的方法具有更好的性能。
本文提出了一种用于视觉和语言理解与生成的端到端的视觉-语言预训练模型 E2E-VLP,其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐,同时通过将目标检测和图像字幕生成任务整合到预训练中,采用统一的编码-解码结构增强了视觉学习。在广泛的视觉-语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。
Jun, 2021
通过提出的全Transformer模型进行视觉-语言预训练(VLP),采用Inter-Modality Flow(IMF)指标和遮盖特征回归(MFR)优化机制来增强视觉关系和视觉-语言分析,同时在各种视觉语言任务中取得了明显的最佳性能。
ROSITA是一种新的VLP方法,其通过将跨模态和内在知识整合到一个统一的场景图中来增强语义对齐,具体地,它引入了一种结构知识掩蔽策略来使用场景图结构作为支持性先验知识来执行掩蔽语言(区域)建模,从而通过消除在跨模态和内部信息中的干扰信息增强语义对齐。经过了广泛的消融研究和综合分析,ROSITA在语义对齐方面表现优秀,在三个典型的视觉与语言任务上,在六个基准数据集上优于现有的最先进的VLP方法。
Aug, 2021
这篇论文从时间的角度对视觉语言智能进行了全面的调研, 总结了三个时期的发展, 包括特定任务方法, 视觉-语言预训练方法和通过大规模弱标签数据增强的更大模型, 并讨论了未来的发展趋势.
Mar, 2022
本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功,着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略,并提出了未来三个方向的研究建议。
Apr, 2022
本文提出新的语义完成学习任务,以便于视觉语言预训练(VLP)模型学习多模态数据的全局语义特征,从而实现全局到局部的对其,同时采用一种灵活的视觉编码器使得该模型可以同时执行图像-文本与视频-文本的多模态任务,实验结果证明该方法在各种视觉语言基准测试中均获得了最新的性能。
Nov, 2022