迈向视觉语言机制可解释性：一种用于 BLIP 的因果追踪工具

ICCVAug, 2023

迈向视觉语言机制可解释性：一种用于 BLIP 的因果追踪工具

Towards Vision-Language Mechanistic Interpretability: A Causal Tracing Tool for BLIP

Vedant Palit, Rohan Pandey, Aryaman Arora, Paul Pu Liang

TL;DR通过引入一种单模态因果追踪工具，我们适应了 BLIP 以研究图像条件下文本生成的神经机制，并在视觉问答数据集上展示了我们的方法，强调了较晚层表示对所有标记的因果相关性。此外，我们将我们的 BLIP 因果追踪工具开源，以便社区进一步探索视觉语言机制可解释性。

Abstract

mechanistic interpretability seeks to understand the neural mechanisms that enable specific behaviors in large language models (LLMs) by l

mechanistic interpretability large language models neural mechanisms vision-language domain causal tracing tool

发现论文，激发创造

从视觉语言模型中学习不变的因果机制

我们提出了 CLIP-ICM（Invariant Causal Mechanism of CLIP）算法，该算法旨在通过干预数据来可靠地识别不变的潜在因素，并在各个领域中实现准确的预测。理论分析表明，我们的方法在分布外（OOD）场景中具有较低的泛化下界，实验结果展示了 CLIP-ICM 的卓越性能。

May, 2024

LVLM-Intrepret：大规模视觉语言模型的解释性工具

人们对于多模态大型语言模型及其内部机制的理解仍然是复杂的任务，因此该研究提出了一个新颖的交互应用来提高图像补丁的可解释性，并评估语言模型将输出与图像联系起来的效果，通过系统性地研究模型来发现系统的局限性，为提升系统功能铺平道路，案例研究证明该应用在理解流行的大型多模态模型（LLaVA）故障机制方面的作用。

Apr, 2024

BLIP: 为实现统一的视觉语言理解与生成，引入语言 - 图像引导预训练

本文提出了 BLIP 作为新的 VLP 框架，通过引入 captioner 生成合成字幕，并使用 filter 删除噪音数据，能灵活地传输视觉语言理解和生成任务，获得了在一系列视觉语言任务中最先进的结果，同时在零样本任务中也表现出极强的泛化能力。

Jan, 2022

通过因果学习的视觉语言导航

通过基于因果推断范式的通用交叉模态因果变换器（GOAT）解决视觉语言导航（VLN）代理程序在未知环境中性能受限的数据集偏差问题，提出通过背门调整和前门调整因果学习模块来全面减轻潜在的伪相关性并提升无偏学习，同时通过对比学习监督的交叉模态特征汇聚模块（CFP）来捕捉全局的混杂物特征，实验证明我们的方法在多个 VLN 数据集上优于先前的最先进方法。

Apr, 2024

图像文字表示的多模态信息瓶颈归因的视觉解释

通过多模态信息瓶颈（M2IB）方法，本文提出了一种改进视觉 - 语言预训练模型的可解释性的方法，学习将相关视觉和文本特征保留并压缩无关信息的潜在表示。在安全关键领域如医疗保健中应用 M2IB，展示了其在视觉 - 语言预训练模型的归因分析上提高了归因精确度和可解释性的效果。与常用的单模态归因方法不同，M2IB 不需要基准标签，因此可以在存在多模态但无基准数据的情况下审查视觉 - 语言预训练模型的表示效果。以 CLIP 为例，本文证明了 M2IB 归因的有效性，定性和定量地显示其在梯度、扰动和注意力等归因方法上的优越性。

Dec, 2023

CausalVLR: 视觉语言因果推理工具箱和基准

CausalVLR is an open-source toolbox based on PyTorch containing a diverse set of causal inference methods for various visual-linguistic reasoning tasks, with available code and models for training and inference.

Jun, 2023

基于因果关系的跨模态表示学习在视觉和语言导航中的应用

提出了一种基于因果学习范式的统一框架 CausalVLN，通过建立关于视觉和语言的结构因果模型 (SCM) 的合理假设，并引入视觉和语言门路因果编码器，在训练和验证期间实现无偏特征表达，增强了智能体在不同环境中的泛化能力，并在三个 VLN 数据集上的实验证明了该方法的优越性和显著缩小了在已知和未知环境之间的性能差距。

Mar, 2024

BLA 基准：研究预训练多模态模型的基本语言能力

我们探索了预训练语言与视觉模型在基本语言构造方面的处理程度，并提出了 BLA 评估基准，发现各种类型的基于 Transformer 的系统普遍在零样本设置下难以处理 BLA，但生成型的 BLIP2 在上下文学习环境中显示出有希望的趋势，这为将 BLA 用作评估基准以及提高模型的基本语言能力打开了大门。

Oct, 2023

文本到图像生成模型中的机制性知识定位

通过定位知识，可以在文本到图像模型中实现更高效的模型编辑，提供了对基于定位的文本到图像模型编辑中成功和失败的更好视角。

May, 2024

机制的竞争：追踪语言模型处理事实和反事实的方式

我们提出了机制竞争的概念，通过分析大语言模型的内部运作机制的相互作用，揭示了机制之间的竞争是如何发生和影响最终预测结果的。我们使用逻辑值检查和注意力修改两种解释性方法，在模型组件中找到了机制和它们之间的竞争痕迹，并发现了可以有效控制某些机制强度的注意力位置。

Feb, 2024