ICCVAug, 2023

迈向视觉语言机制可解释性:一种用于 BLIP 的因果追踪工具

TL;DR通过引入一种单模态因果追踪工具,我们适应了 BLIP 以研究图像条件下文本生成的神经机制,并在视觉问答数据集上展示了我们的方法,强调了较晚层表示对所有标记的因果相关性。此外,我们将我们的 BLIP 因果追踪工具开源,以便社区进一步探索视觉语言机制可解释性。