Dec, 2023

图像文字表示的多模态信息瓶颈归因的视觉解释

TL;DR通过多模态信息瓶颈(M2IB)方法,本文提出了一种改进视觉 - 语言预训练模型的可解释性的方法,学习将相关视觉和文本特征保留并压缩无关信息的潜在表示。在安全关键领域如医疗保健中应用 M2IB,展示了其在视觉 - 语言预训练模型的归因分析上提高了归因精确度和可解释性的效果。与常用的单模态归因方法不同,M2IB 不需要基准标签,因此可以在存在多模态但无基准数据的情况下审查视觉 - 语言预训练模型的表示效果。以 CLIP 为例,本文证明了 M2IB 归因的有效性,定性和定量地显示其在梯度、扰动和注意力等归因方法上的优越性。