Jan, 2024

超越图像 - 文本匹配:多模态变换器中使用引导掩模进行动词理解

TL;DR本研究提出了一种指导掩蔽的探测方法,评估最近的多模态图像语言变形器模型的学习表示能力,重点研究考虑感兴趣区域(ROI)特征作为输入标记的多模态模型,通过指导掩蔽分析动词的理解能力,在 ViLBERT、LXMERT、UNITER 和 VisualBERT 模型中,我们展示出这些模型能够以高准确度预测正确的动词。