EMNLPOct, 2022
从文本角度探究跨模态语义对齐能力
Probing Cross-modal Semantics Alignment Capability from the Textual Perspective
Zheng Ma, Shi Zong, Mianzhi Pan, Jianbing Zhang, Shujian Huang...
TL;DR本文提出了一种基于图像字幕生成的新型探测方法,用于研究视觉语言预训练模型中跨模态语义对齐的内部机制,发现 VLP 模型对齐的主要是对象和视觉词,忽略了全局语义,还存在固定的句子模式,无视语法和流畅性等问题。