VLM 注意到了什么？一个用于无噪音文本 - 图像破坏与评估的机制可解释性流程

Jun, 2024

VLM 注意到了什么？一个用于无噪音文本 - 图像破坏与评估的机制可解释性流程

What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Noise-free Text-Image Corruption and Evaluation

Michal Golovanevsky, William Rudman, Vedant Palit, Ritambhara Singh, Carsten Eickhoff

TL;DR通过在视觉语言模型中引入 NOTICE 技术，实现了对其决策过程的透明化和可解释性，从而揭示了关键的决策因素和多模态整合中的中间层交叉注意力。

Abstract

vision-language models (VLMs) have gained community-spanning prominence due to their ability to integrate visual and textual inputs to perform complex tasks. Despite their success, the internal decision-making processes of these models remain opaque, posing challenges in high-stakes ap

vision-language models noise-free text-image corruption symmetric token replacement multimodal integration middle-layer cross-attention heads

发现论文，激发创造

利用大规模视觉语言模型进行合成图像检测

利用先进的视觉语言模型（VLMs）对合成图像进行识别的效果进行了研究，并通过调整最先进的图像字幕模型，利用大型 VLMs 的强大理解能力区分真实图像和扩散基模型生成的合成图像。

Apr, 2024

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

MirrorCheck：视觉语言模型的高效对抗性防御

通过利用 Text-to-Image 模型根据 Vision-Language Models 生成的标题产生图像，并在特征空间中计算输入图像和生成图像的嵌入相似性以识别对抗样本，我们提出了一个新颖而简单的方法来检测 Vision-Language Models 中的对抗样本，并且经过实证评估，我们的方法表现出比基于图像分类领域的基线方法更好的效果，同时我们还将这种方法扩展到分类任务中，并展示了其适应性和模型不可知性，从理论和实证发现来看，我们的方法对自适应攻击具有很强的韧性，使其成为在真实世界中应对对抗威胁的出色防御机制。

Jun, 2024

探究跨模态：自注意力视觉解析用于视觉语言预训练

通过提出的全 Transformer 模型进行视觉 - 语言预训练（VLP），采用 Inter-Modality Flow（IMF）指标和遮盖特征回归（MFR）优化机制来增强视觉关系和视觉 - 语言分析，同时在各种视觉语言任务中取得了明显的最佳性能。

Jun, 2021

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

VIPHY：探究 “可见” 的物理常识知识

本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力，并发现这些模型在物体颜色，大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。

Sep, 2022

MLIM: 带掩码语言和图像建模的视觉语言模型预训练

本文介绍了一种新的 VLP 方法：MLIM，它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交互，并在 e-commerce 多模态数据集上展示了更好的下游任务表现。

Sep, 2021

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020