LVLM-Intrepret：大规模视觉语言模型的解释性工具

Apr, 2024

LVLM-Intrepret：大规模视觉语言模型的解释性工具

LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models

Gabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla...

TL;DR人们对于多模态大型语言模型及其内部机制的理解仍然是复杂的任务，因此该研究提出了一个新颖的交互应用来提高图像补丁的可解释性，并评估语言模型将输出与图像联系起来的效果，通过系统性地研究模型来发现系统的局限性，为提升系统功能铺平道路，案例研究证明该应用在理解流行的大型多模态模型（LLaVA）故障机制方面的作用。

Abstract

In the rapidly evolving landscape of artificial intelligence, multi-modal large language models are emerging as a significant area of inte

artificial intelligence multi-modal large language models explainability tools vision-language models

发现论文，激发创造

VL-InterpreT：一种用于解释视觉语言变换器的交互式可视化工具

本文介绍了 VL-InterpreT，一种可视化工具，通过跟踪关注头中的各种统计信息、可视化跨模态和内模态注意力热力图、以及绘制视觉和语言标记的隐藏表示，来提供多模态转换器中的注意力和隐藏表示的解释。文中使用 KD-VLP 模型根据 Visual Commonsense Reasoning（VCR）和 WebQA 等视觉问答基准展示了 VL-InterpreT 的功能，同时介绍了通过使用该工具学到的有关多模态转换器行为的一些有趣发现。

Mar, 2022

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

大语言模型时代的可解释性重新思考

可解释机器学习与大型语言模型相结合，评估解释方法并提出使用语言模型分析数据集和生成交互式解释的两个研究重点。

Jan, 2024

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

大规模视觉语言模型中的艺术作品解释

大规模视觉语言模型（LVLMs）可以从图像和说明中输出文本，展示出在文本生成和理解方面的先进能力。然而，LVLMs 在理解解释图像所需的知识、各种知识之间的复杂关系以及如何将这些理解整合到解释中的能力尚未得到明确。针对这个问题，我们提出了一个新任务：艺术品解释生成任务，同时提供其评估数据集和用于定量评估对艺术品知识的理解和利用的度量标准。此任务适用于基于图像描述，基于这样一个前提：LVLMs 应具有关于艺术品的预先存在的知识，艺术品往往是被广泛认可并有记录信息的主题。任务由两个部分组成：从图像和艺术品标题生成解释，以及仅使用图像生成解释，从而评估 LVLMs 基于语言和基于视觉的知识。与此同时，我们还发布了一个训练数据集，使 LVLMs 可以学习包含有关艺术品的解释。我们的发现表明，LVLMs 不仅在整合语言和视觉信息方面存在困难，而且在仅从图像中获取知识方面存在更明显的限制。数据集（ExpArt=Explain Artworks）可在以下链接找到：this https URL。

Feb, 2024

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

视觉语言建模简介

扩展到视觉领域的大型语言模型（LLMs）的应用将显著影响我们与技术的关系，但需要解决一些可靠性挑战。本文介绍了视觉语言模型（VLM）以及其工作原理、训练方法和评估方法，并讨论了将其扩展到视频领域的问题。

May, 2024

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

InterVLS：用视觉语言替代模型的交互式理解和改进

通过发现与文本对齐的概念、用模型无关的线性替代物来度量它们的影响，InterVLS 系统促进了模型的理解，通过视觉分析提供基于概念的解释和性能洞察，使用户能够调整概念的影响来更新模型，可实现无编码模型的改进。

Nov, 2023

从冗余到相关性：增强多模态大型语言模型的可解释性

通过分析信息流的动态流动，我们发现信息流似乎在浅层中汇聚，进一步的研究揭示了浅层中图像令牌的冗余，因此引入了一个截断策略来聚合这些浅层内的图像令牌，该方法通过多个模型上的实验证实，并获得了一致的改进。

Jun, 2024