超越图像 - 文本匹配：多模态变换器中使用引导掩模进行动词理解

Jan, 2024

超越图像 - 文本匹配：多模态变换器中使用引导掩模进行动词理解

Beyond Image-Text Matching: Verb Understanding in Multimodal Transformers Using Guided Masking

Ivana Beňová, Jana Košecká, Michal Gregor, Martin Tamajka, Marcel Veselý...

TL;DR本研究提出了一种指导掩蔽的探测方法，评估最近的多模态图像语言变形器模型的学习表示能力，重点研究考虑感兴趣区域（ROI）特征作为输入标记的多模态模型，通过指导掩蔽分析动词的理解能力，在 ViLBERT、LXMERT、UNITER 和 VisualBERT 模型中，我们展示出这些模型能够以高准确度预测正确的动词。

Abstract

The dominant probing approaches rely on the zero-shot performance of image-text matching tasks to gain a finer-grained understanding of the representations learned by recent multimodal image-language transformer models<

probing approaches multimodal image-language transformer models guided masking regions of interest verb understanding

发现论文，激发创造

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

探索图像 - 语言变换器的动词理解

本文研究多模态图像语言变换器的预训练表示质量，研究表明在需要谓语理解的情况下这些模型的表现不佳，通过图像 - 语句对数据集评估模型性能，分类词汇类型并找到特别具有挑战性的词汇类型。

Jun, 2021

学生不应看到的内容：基于注意力引导的遮蔽图像建模

本文阐述了在计算机视觉领域中采用 Transformer 和掩蔽语言模型的新趋势，即视觉 Transformer 和掩蔽的图像建模 (MIM)。我们认为，在 MIM 中，图像记号掩蔽与文本中的掩蔽不同，因为它们之间的记号数量和相关性不同。为了为 MIM 生成一个具有挑战性的预文本任务，我们提出了一种从随机掩蔽到知情掩蔽的转变。我们在基于蒸馏的 MIM 的上下文中开发并展示了这个思想，其中教师 Transformer 编码器生成关注图，该图我们用于指导学生的掩蔽。因此，我们引入了一种新的掩蔽策略，称为注意力引导掩蔽 (AttMask)，并证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。我们确认，AttMask 加速了学习过程并在各种下游任务中提高了性能。我们在此 https URL 提供了实现代码。

Mar, 2022

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020

视觉语言领域数据效率掩码语言建模

本文研究在跨模态预训练中使用遮蔽语言建模（Masked Language Modeling，简称 MLM）的一些问题，提出了一些针对这些问题的替代遮蔽策略，在 LXMERT 模型预训练时，我们的替代策略始终优于原始遮蔽策略，特别是在低资源设置下，我们的预训练方法显著优于基准模型，并且通过对影像对象的特定标记任务的评估，我们的结果和分析表明，该方法允许更好地利用训练数据。

Sep, 2021

MVP: 多模态引导的视觉预训练

本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法，该方法利用来自其他几个模态的指导信息对图像进行预训练，取代了 Vision Transformer 中的 tokenizer，并在一系列下游视觉识别任务中取得了显著优越的效果。

Mar, 2022

语义增强的跨模态遮蔽图像建模及视觉 - 语言预训练

我们提出了一个语义增强的视觉 - 语言预训练模型，通过引入局部语义增强方法和文字引导的遮蔽策略，实现了跨模态语义对齐，在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。

Mar, 2024

超越言语：测试预训练 V&L 模型在计数任务中的跨模态能力

本研究探讨了预训练视觉和语言模型在两个需要多模态集成的任务中的推理能力：（1）区分正确的图像 - 句子对与不正确的对，以及（2）计算图像中的实体。结果显示，预训练的 V＆L 模型非常擅长解决任务（1），但无法充分解决任务（2），即计数探针，并不能推广到不同分布的数量。研究为我们提供了一些对这些发现的解释，并建议理解这些模型的推理和基础能力需要更有目的的调查。

Dec, 2020

指令引导下的视觉遮罩化

通过引入指导型视觉遮罩（IVM）来改进多模式指令跟踪，本研究在多模式设置下证明了 IVM 的适用性，并显示出在图像与指令之间进行准确的视觉对齐的优势。通过构建视觉遮罩，IVM 增强的多模式模型能够更好地关注与任务相关的图像区域，从而取得更好的指令跟踪表现。实验结果表明，IVM 作为一种即插即用工具，显著提升了多样化的多模式模型性能，在各种复杂多模式基准上取得了新的最佳结果。

May, 2024

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

本文介绍了一种新的 VLP 方法：MLIM，它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互，并在 e-commerce 多模态数据集上展示了更好的下游任务表现。

Sep, 2021