Jan, 2024
超越图像 - 文本匹配:多模态变换器中使用引导掩模进行动词理解
Beyond Image-Text Matching: Verb Understanding in Multimodal Transformers Using Guided Masking
Ivana Beňová, Jana Košecká, Michal Gregor, Martin Tamajka, Marcel Veselý...
TL;DR本研究提出了一种指导掩蔽的探测方法,评估最近的多模态图像语言变形器模型的学习表示能力,重点研究考虑感兴趣区域(ROI)特征作为输入标记的多模态模型,通过指导掩蔽分析动词的理解能力,在 ViLBERT、LXMERT、UNITER 和 VisualBERT 模型中,我们展示出这些模型能够以高准确度预测正确的动词。