从视觉语言模型中学习不变的因果机制

May, 2024

从视觉语言模型中学习不变的因果机制

Learning Invariant Causal Mechanism from Vision-Language Models

Zeen Song, Siyu Zhao, Xingyu Zhang, Jiangmeng Li, Changwen Zheng...

TL;DR我们提出了 CLIP-ICM（Invariant Causal Mechanism of CLIP）算法，该算法旨在通过干预数据来可靠地识别不变的潜在因素，并在各个领域中实现准确的预测。理论分析表明，我们的方法在分布外（OOD）场景中具有较低的泛化下界，实验结果展示了 CLIP-ICM 的卓越性能。

Abstract

Pre-trained large-scale models have become a major research focus, but their effectiveness is limited in real-world applications due to diverse data distributions. In contrast, humans excel at decision-making across various domains by learning reusable knowledge that remains invariant despite environmental changes in a complex world. Although →

pre-trained models data distributions clip causal inference latent factors

发现论文，激发创造

视觉语言模型泛化的不变测试时间适应

通过测试时间提示调整范式优化学习提示的方式，该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息，同时强调关键的与任务相关的视觉线索。

Mar, 2024

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

CLIP 能为视觉语言任务带来多大的效益？

研究了在视觉与语言任务中使用大规模预训练模型 CLIP 作为视觉编码器以及其优势，通过在特定任务中微调和在预训练模型中与 V&L 相结合传递到下游任务，CLIP 显著优于现有的视觉编码器，并在多种视觉与语言任务中取得竞争或更好的结果，同时取得了 Visual Question Answering，Visual Entailment 和 V&L Navigation 等任务的新高峰。

Jul, 2021

通过视觉表示精炼视觉 - 语言模型中的偏差感知

通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

May, 2024

民主化对比语言 - 图像预训练：一个数据、模型和监督的 CLIP 基准

本文提出 CLIP-benchmark，对 CLIP 及其变种进行评估、分析和基准测试，并发现了数据、监督和模型架构三个关键因素对性能的影响及应用更恰当的监督可以有效提高 CLIP 性能。

Mar, 2022

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

构想 MedCLIP：医学视觉语言模型的可解释性深入探究

分析多模态模型的解释性性能以及提出克服这些方法的缺点的简单方法，并提供对医学领域中解释性的新观点，该评估方法具有普适性。

Mar, 2024

迈向视觉语言机制可解释性：一种用于 BLIP 的因果追踪工具

通过引入一种单模态因果追踪工具，我们适应了 BLIP 以研究图像条件下文本生成的神经机制，并在视觉问答数据集上展示了我们的方法，强调了较晚层表示对所有标记的因果相关性。此外，我们将我们的 BLIP 因果追踪工具开源，以便社区进一步探索视觉语言机制可解释性。

Aug, 2023

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

深入研究对比语言图像预训练（CLIP）的鲁棒性

该研究全面调查了 Contrastive Language-Image Pre-training (CLIP) 模型的安全目标，特别关注三个关键属性：对视觉因素变化的弹性，校准的不确定性估计以及检测异常输入的能力。研究揭示了 CLIP 模型的一些以前未知的见解，并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的 CLIP 模型的发展。

Feb, 2024