多模态表示学习的遮蔽视觉和语言建模
本文介绍了一种新的 VLP 方法:MLIM,它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互,并在 e-commerce 多模态数据集上展示了更好的下游任务表现。
Sep, 2021
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
本文研究在跨模态预训练中使用遮蔽语言建模(Masked Language Modeling,简称 MLM)的一些问题,提出了一些针对这些问题的替代遮蔽策略,在 LXMERT 模型预训练时,我们的替代策略始终优于原始遮蔽策略,特别是在低资源设置下,我们的预训练方法显著优于基准模型,并且通过对影像对象的特定标记任务的评估,我们的结果和分析表明,该方法允许更好地利用训练数据。
Sep, 2021
本文提出一种联合掩蔽多模态建模方法 (MAMO),通过联合掩盖图像 - 文本输入,并通过隐式和显式目标来恢复掩蔽信号,从而学习细粒度的多模态表示,实现高级和语义明确的信息恢复,取得了各种下游视觉 - 语言任务中的最新成果。
Oct, 2022
该研究提出了一种新的医学图像分析解决方案:基于多任务配对掩模对齐(MPMA)的统一 Med-VLP 框架,其中设计了全局和局部对齐(GLA)模块和记忆增强型跨模态融合(MA-CMF)模块,以实现更全面的跨模态交互,并在全部下游任务中优于以前的方法。
May, 2023
本文提出新的语义完成学习任务,以便于视觉语言预训练(VLP)模型学习多模态数据的全局语义特征,从而实现全局到局部的对其,同时采用一种灵活的视觉编码器使得该模型可以同时执行图像 - 文本与视频 - 文本的多模态任务,实验结果证明该方法在各种视觉语言基准测试中均获得了最新的性能。
Nov, 2022
本文采用统一的跨模态表示学习框架 VATLM,通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入,以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中,优化下游任务的结果表明,VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型,并且能够将不同的语言类型对齐到同一个语义空间。
Nov, 2022
提出了一种名为蒙版对比与重建(MCR)的高效 VLP 框架,以蒙版数据作为两个任务的唯一输入,增强任务之间的连接,并显著减少所需的 GPU 内存和训练时间。通过映射不同的模态到一个公共特征空间,然后进行局部特征聚合,减少细粒度语义信息的损失,从而降低了 fine-grained 的模态对齐所需要的 gpu 内存和时间。在 MIMIC-CXR 数据集上进行的定性和定量实验验证了该方法的有效性,并展示了在医学跨模态检索任务中的最先进性能。
Dec, 2023
近年来,自监督学习因其出色的表示学习能力和对标注数据低依赖性而备受关注。文中综合评述了遮蔽建模框架及其方法学,并详细介绍了遮蔽建模中的技术细节,包括各种遮蔽策略、恢复目标、网络架构等。该框架在计算机视觉、自然语言处理和其他领域表现出了出色的性能,并探讨了不同领域中遮蔽建模方法的共性和差异。最后,讨论了当前技术的局限性并指出了几个可能的研究方向。
Dec, 2023
提出了一个自我监督学习框架中的视觉语言表示学习方法,引入了一种新的操作、损失和数据增强策略,其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征,然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域,提出了一个用于图像文本对比学习(ITC)目标的焦点损失,并进行多模态数据增强以进行自我监督学习。
Apr, 2023