通过文本解释解读和控制视觉基础模型

Oct, 2023

通过文本解释解读和控制视觉基础模型

Interpreting and Controlling Vision Foundation Models via Text Explanations

Haozhe Chen, Junfeng Yang, Carl Vondrick, Chengzhi Mao

TL;DR基于大规模预训练视觉模型，如 CLIP，的本文的研究主要集中在模型的解释和控制，通过理解模型的潜在令牌和进行模型编辑来改进模型的推理行为和鲁棒性。

Abstract

Large-scale pre-trained vision foundation models, such as clip, have become de facto backbones for various vision tasks. However, due to their black-box nature, understanding the underlying rules behind these models' predictions and controlling model behaviors have remained open challe

large-scale pre-trained vision models clip model interpretation transformer's latent tokens model editing

发现论文，激发创造

增强视觉模型以实现对文本密集内容的理解和交互

增强视觉模型对包含大量文本信息的图像进行理解和学习的能力，通过数据预处理、微调和模型评估等方法，在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度，旨在提升复杂视觉文本数据的跨模态人工智能理解能力。

May, 2024

幕后揭秘：揭示预训练视觉语言模型的秘密

该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。

May, 2020

视觉 Transformer 的可解释性：综述与新的观点

本研究探讨了用于视觉 Transformer 的不同解释性方法，并提出了根据其动机、结构和应用场景进行分类的分类法。此外，还提供了用于比较解释结果的综合评价标准，以及解释性工具和框架。最后，本文突出了可以增强视觉 Transformer 可解释性的重要但未被开发的方面，并提出了未来需进一步研究的方向。

Nov, 2023

利用视觉 - 语言基础模型进行精细化下游任务

本文提出了基于正 / 负提示公式的多任务微调策略来进一步利用视觉语言基础模型的能力，以解决 CLIP 等模型在细粒度属性检测和定位等下游任务中遇到的问题，并在 CUB200-2011 数据集上提高分类性能。

Jul, 2023

定义视觉新时代的基础模型：调查与展望

视觉系统、基础模型、环境中的上下文推理、训练目标和计算机视觉的挑战和研究方向的综述。

Jul, 2023

利用语义视觉先验解释视觉和语言生成模型

使用 SHAP 为基础的框架，可以在具有语义先验的视觉背景下提取任意数量的特征，从而可生成高度有意义的视觉解释并达到比传统方法更低的计算成本及更好的语义表达能力。

Apr, 2023

学习的视觉特征到文本解释

利用大型语言模型解释视觉模型的学习特征，通过训练神经网络建立图像分类器和语言模型之间的连接，生成大量的句子来解释分类器学习到的特征，并提取最频繁的词语，增强图像分类器的解释性和鲁棒性。

Sep, 2023

利用解释作为潜在变量实现可解释的自然语言理解

本文提出了一种可解释自然语言理解的框架，使用一小部分人类注释的解释进行训练，并采用变分 EM 方法进行优化，同时提出了基于解释的自训练方法，在两个自然语言理解任务上进行实验，证明了该框架不仅可以在监督和半监督设置下进行有效的预测，还可以生成良好的自然语言解释。

Oct, 2020

概率概念解释器：用于视觉基础模型的可信概念解释

这篇论文提出了 Vision transformers（ViTs）在解释方法方面的需求，通过引入概率概念解释器（PACE）来提供可信的事后概念解释，并通过实验表明 PACE 在定义的需求方面优于现有方法。

Jun, 2024

监督微调进一步提升视觉基础模型

图像 - 文本训练如 CLIP 已经在近年来直接影响了视觉基础模型的预训练。本文提出了一种名为 ViSFT（Vision SFT）的两阶段方法，通过对一些领域内任务进行视觉联合学习，进而增强视觉基础模型的精细知识。该方法在 8 个 V100 GPU 上不到 2 天的时间内使用 ViSFT 进行更新，展示了一个带有超过 4.4B 参数的视觉转换器在包括视觉和视觉 - 语言场景在内的各种领域外基准测试中的改进。

Jan, 2024