Oct, 2020
我的多模型是否学习了跨模态交互?比你想象的更难判断!
Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think!
Jack Hessel, Lillian Lee
TL;DR提出一种名为 EMAP 的诊断工具,用于检测跨模态交互是否提高给定模型在给定任务上的性能,在七个图像 + 文本分类任务中发现,即使具有考虑交互作用的表达模型在表现上优于不太表达的模型,删除跨模态交互也往往不会降低性能。建议多模式机器学习研究人员不仅报告单模基线的性能,而且还要报告最佳性能模型的 EMAP。