ECOR：面向目标识别的可解释 CLIP

Apr, 2024

ECOR: Explainable CLIP for Object Recognition

Ali Rasekh, Sepehr Kazemi Ranjbar, Milad Heidari, Wolfgang Nejdl

TL;DR在本研究中，我们通过给对象识别任务中的大视觉语言模型（VLMs）提供可解释性的数理定义（基于类别和原因的联合概率分布），以一种可解释的方式对 CLIP 进行微调，从而在解释性分类方面展现了最先进的性能，尤其在零样本设置下表现出了它的适应性，使解释性的对象识别得到了改善，增强了不同应用中的信任。

Abstract

large vision language models (VLMs), such as CLIP, have significantly contributed to various computer vision tasks, including object recognition and object detection. Their open vocabulary feature enhances their

large vision language models explainability object recognition rationales classification accuracy

发现论文，激发创造

构想 MedCLIP：医学视觉语言模型的可解释性深入探究

分析多模态模型的解释性性能以及提出克服这些方法的缺点的简单方法，并提供对医学领域中解释性的新观点，该评估方法具有普适性。

Mar, 2024

利用大型语言模型的描述进行视觉分类

本文介绍了一种基于描述符的视觉语言模型分类方法，通过查询大型语言模型获取描述符，实现从中获得更多的信息并提供可解释性；实验证明了该方法在图像分类精度，适应新概念和缓解偏差等方面有着广泛的优势。

Oct, 2022

TaskCLIP：扩展大型视觉语言模型以用于任务导向的物体检测

通过使用大规模视觉和语言模型（VLM）作为模型骨干，以及基于 Transformer 的校准器，我们提出了 TaskCLIP，一个两阶段的设计用于任务导向的目标检测，实验结果表明我们的方法优于当前最先进的 TOIST 模型，并且只需要一张 NVIDIA RTX 4090 显卡进行训练和推理。

Mar, 2024

CLIP 对红色圆圈有何了解？用于 VLM 的视觉提示工程

本文探讨了在图像空间中使用视觉提示工程来解决计算机视觉任务的想法，并发现了 CLIP 的一种新能力，通过简单地在物体周围画一个红圈，即可引导模型的注意力，同时保留全局信息。通过这种简单的方法，在零样本引用表达理解中实现了最先进的效果，并在关键点定位任务中取得了强大的性能。最后，我们关注了大型语言 - 视觉模型可能存在的一些潜在伦理问题。

Apr, 2023

CLIP 手术技术用于开放式任务的解释性增强

CLIP（Contrastive Language-Image Pre-training）是一种强大的多模态视觉模型，该论文提出了一种 CLIP Surgery 方法，可以在不降低性能的情况下提升 CLIP 的解释性和性能，并在开放词汇任务中获得了显着的提高，如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升，Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。

Apr, 2023

解释 CLIP 在盲 / 低视能用户数据上的表现差异

大型多模态模型 (LMMs) 在为盲人或低视力用户提供自动视觉辅助方面具有潜力。我们通过实证评估 CLIP，在零样本分类任务中测试了 25 个 CLIP 变体，发现其在盲人用户捕获的图像上的准确性平均低了 15 个百分点，原因是 CLIP 对图像内容、图像质量和文本内容的敏感性不足。通过对三个常见的预训练数据集进行文本分析，我们发现残疾内容很少被提及。我们还提供了三个示例，说明性能差异扩展到由 CLIP 支持的三个下游模型：OWL-ViT, CLIPSeg 和 DALL-E2。我们发现使用仅有 5 张图像进行少样本学习可以在某些情况下缓解 BLV 用户的 CLIP 的服务质量差异，我们还讨论了一系列可能的缓解措施。

Nov, 2023

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

利用大型语言模型演变可解释的视觉分类器

通过演化搜索算法和大语言模型的上下文学习能力，我们提出了一种能够发现解释性又具有辨识性的用于视觉识别的属性集合的新方法，并在五个细粒度的 iNaturalist 数据集上比最先进的基准方法提高了 18.4%，在两个 KikiBouba 数据集上提高了 22.2%。

Apr, 2024

朝着具有 CLIP 的逼真无监督微调

通过将视觉语言模型 (VLMs) 应用于下游监督学习任务，本文探讨了无监督微调 CLIP 模型，解决了未知类别的样本和识别预定义类别实例的问题，并提出了一种称为通用熵优化 (UEO) 的简单有效的微调方法。通过广泛的实验，我们证明了 UEO 方法在泛化能力和检测未知类别样本方面优于基线方法。

Aug, 2023

CoLeCLIP：通过联合任务提示和词汇学习实现开放域持续学习

本文探讨了在开放领域中视觉语言模型的持续学习问题，介绍了一种名为 CoLeCLIP 的新方法，通过联合学习任务提示和跨领域类别词汇来解决开放领域持续学习中的挑战，实验证明 CoLeCLIP 在开放领域持续学习中超过了最先进的方法。

Mar, 2024