使用文本驱动的软掩膜进行多模态表征学习
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型,该模型可以学习到模态不变的特征表示,在四个公开数据集上取得了最优的交叉模态匹配性能,排名 1 的准确率提高了 2%到 5%。
Aug, 2019
使用图像和标题的联合信息进行预训练可提高图像表征能力,该方法通过 image-conditioned masked language modeling(ICMLM)任务来实现,训练出的表征能够成功应用于多种目标任务。
Aug, 2020
本文研究在跨模态预训练中使用遮蔽语言建模(Masked Language Modeling,简称 MLM)的一些问题,提出了一些针对这些问题的替代遮蔽策略,在 LXMERT 模型预训练时,我们的替代策略始终优于原始遮蔽策略,特别是在低资源设置下,我们的预训练方法显著优于基准模型,并且通过对影像对象的特定标记任务的评估,我们的结果和分析表明,该方法允许更好地利用训练数据。
Sep, 2021
本文提出一种联合掩蔽多模态建模方法 (MAMO),通过联合掩盖图像 - 文本输入,并通过隐式和显式目标来恢复掩蔽信号,从而学习细粒度的多模态表示,实现高级和语义明确的信息恢复,取得了各种下游视觉 - 语言任务中的最新成果。
Oct, 2022
本文研究如何使用掩码信号建模来实现视觉和语言(V + L)表示学习,提出了联合掩码视觉和语言建模的方法,通过不同的模态互相重构,隐式地学习语言标记和图像补丁的交叉模态对齐,并在各种 V + L 任务中实现了最先进的性能。
Aug, 2022
本文介绍了一种新的 VLP 方法:MLIM,它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互,并在 e-commerce 多模态数据集上展示了更好的下游任务表现。
Sep, 2021
利用社交媒体帖子中的多模态信息,通过引入辅助损失与主任务相结合的方式,成功解决了文本和图像信息融合中的挑战,取得了一致的改进效果,并通过详细分析揭示了辅助任务在特定场景和案例中的最有效性。
Sep, 2023
本研究提出了一种指导掩蔽的探测方法,评估最近的多模态图像语言变形器模型的学习表示能力,重点研究考虑感兴趣区域(ROI)特征作为输入标记的多模态模型,通过指导掩蔽分析动词的理解能力,在 ViLBERT、LXMERT、UNITER 和 VisualBERT 模型中,我们展示出这些模型能够以高准确度预测正确的动词。
Jan, 2024
本文提出的 LayoutLMv3 是一种用于文档人工智能的多模态 Transformer 的预训练方法,用于统一文本和图像遮蔽,并通过预测文本单词的对应图像块是否被遮蔽的方式进行跨模态对齐。实验结果表明,LayoutLMv3 不仅在文本中心任务中实现了最先进的性能,而且在以图像为中心的任务中也是如此。
Apr, 2022