多模态表示学习的遮蔽视觉和语言建模
通过提出的全Transformer模型进行视觉-语言预训练(VLP),采用Inter-Modality Flow(IMF)指标和遮盖特征回归(MFR)优化机制来增强视觉关系和视觉-语言分析,同时在各种视觉语言任务中取得了明显的最佳性能。
Jun, 2021
本文研究在跨模态预训练中使用遮蔽语言建模(Masked Language Modeling,简称MLM)的一些问题,提出了一些针对这些问题的替代遮蔽策略,在LXMERT模型预训练时,我们的替代策略始终优于原始遮蔽策略,特别是在低资源设置下,我们的预训练方法显著优于基准模型,并且通过对影像对象的特定标记任务的评估,我们的结果和分析表明,该方法允许更好地利用训练数据。
Sep, 2021
本文介绍了一种新的VLP方法:MLIM,它使用Masked Language Modeling和Image Reconstruction两种损失函数以及Modality Aware Masking技术来增强语言和图片之间的交互,并在e-commerce多模态数据集上展示了更好的下游任务表现。
Sep, 2021
本文提出一种联合掩蔽多模态建模方法(MAMO),通过联合掩盖图像-文本输入,并通过隐式和显式目标来恢复掩蔽信号,从而学习细粒度的多模态表示,实现高级和语义明确的信息恢复,取得了各种下游视觉-语言任务中的最新成果。
Oct, 2022
本文提出了一种名为MaskAlign的高效MIM范例,将可视化小片段功能与老师模型提取的整体图像特征相一致,证明即使在掩蔽区域没有重建的情况下,蒙面建模也不会失去效率。与Dynamic Alignment相结合,MaskAlign能够实现高效的最新性能。
Nov, 2022
本文提出新的语义完成学习任务,以便于视觉语言预训练(VLP)模型学习多模态数据的全局语义特征,从而实现全局到局部的对其,同时采用一种灵活的视觉编码器使得该模型可以同时执行图像-文本与视频-文本的多模态任务,实验结果证明该方法在各种视觉语言基准测试中均获得了最新的性能。
Nov, 2022
提出了一个自我监督学习框架中的视觉语言表示学习方法,引入了一种新的操作、损失和数据增强策略,其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征,然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域,提出了一个用于图像文本对比学习(ITC)目标的焦点损失,并进行多模态数据增强以进行自我监督学习。
Apr, 2023
本文提出了一种GLSCL任务,旨在促进全局-局部对齐和局部-局部对齐,该任务包括MGSC和MLTC,可通过跨模式交互补充掩码数据的缺失语义并恢复全局和局部特征,实验结果显示,该方法在多种视觉语言基准测试中获得了最先进的性能。
Jun, 2023
我们提出了一个语义增强的视觉-语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉-语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
通过生成准确定位信息在图像和文本中同时出现的图像块和单词标记的掩码,SyncMask解决了时尚数据集中图像和文本之间信息不匹配的问题,并在时尚数据集中的三个下游任务中表现出优秀的性能。
Apr, 2024