概念可视化：使用 WordNet 解释 CLIP 多模态嵌入

May, 2024

概念可视化：使用 WordNet 解释 CLIP 多模态嵌入

Concept Visualization: Explaining the CLIP Multi-modal Embedding Using WordNet

Loris Giulivi, Giacomo Boracchi

TL;DR我们提出了一个新的显著性方法，称为 Concept Visualization (ConVis)，通过利用嵌入式多模态信息解释图像的 CLIP 嵌入。我们使用 WordNet 中的词汇信息计算任何概念的与任务无关的显著性图，并验证了我们对 WordNet 的使用，同时在目标定位基准测试中测试了 ConVis，并且展示了 Concept Visualizations 能够正确识别和定位图像的语义内容。此外，我们进行了用户研究，证明了我们的方法可以让用户了解模型的功能。

Abstract

Advances in multi-modal embeddings, and in particular clip, have recently driven several breakthroughs in Computer Vision (CV). clip has s

multi-modal embeddings clip model explainability saliency methodology concept visualization

发现论文，激发创造

CLIP 手术技术用于开放式任务的解释性增强

CLIP（Contrastive Language-Image Pre-training）是一种强大的多模态视觉模型，该论文提出了一种 CLIP Surgery 方法，可以在不降低性能的情况下提升 CLIP 的解释性和性能，并在开放词汇任务中获得了显着的提高，如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升，Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。

Apr, 2023

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

在线嵌入多尺度 CLIP 特征于 3D 地图中

本研究介绍了一种新的方法，将多尺度的 CLIP (对比性语言 - 图像预训练) 特征在线嵌入到 3D 地图中，通过利用 CLIP，该方法克服了传统的词汇有限方法的限制，并将语义信息融入到生成的地图中，从而高效地计算和嵌入多尺度 CLIP 特征，并且通过将 CLIP 特征嵌入到结果地图中，实现了离线检索和实时对象搜索，进一步提出了一种基于地图方法的零样本对象 - 目标导航系统，并通过对象 - 目标导航、离线对象检索和多对象 - 目标导航在模拟环境和真实机器人实验中验证了其有效性，结果表明，我们的方法不仅在地图生成方面表现出更快的性能，而且在对象 - 目标导航任务的成功率方面也超过了现有的最先进方法。

Mar, 2024

概念引导下的提示学习进行视觉 - 语言模型泛化

通过概念引导提示学习的方式，CPL 方法显著提高了通用化性能。

Jan, 2024

理解多模态深度神经网络：概念选择视角

通过两阶段的概念选择模型（CSM），本研究在观察到概念的长尾分布的基础上，提出了一种无需引入人为先验的核心概念挖掘方法，实验表明该方法在解释性和理解性方面可与黑盒模型相媲美。

Apr, 2024

Structure-CLIP: 使用结构信息增强多模态语言表示

本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP，它利用场景图实现对细粒度语义信息的关注，结合结构知识来提高多模态语言表示的表示能力，并在不同的下游任务中得到了最先进的表现。

May, 2023

简单而有效：CLIP 嵌入用于具身人工智能

通过比较使用传统的 ImageNet 预训练模型和使用 CLIP 模型训练的模型，在实现与物理机器人和虚拟模拟任务相关的领域，我们展示并证明了在不加入神经复杂性、语义地图、辅助训练任务与深度图等的情况下使用 EmbCLIP 基线的高性能表现，从而证明了 CLIP 编码器对于情感取向环境下的物理对象导航与智能的有效性。

Nov, 2021

无需进一步训练即可将 CLIP 用于短语定位

利用对比语言 - 视觉模型 CLIP，我们可以实现无需人工注释或额外训练的短语定位方法，其零样本短语定位性能优于现有无训练方法，并在某些情况下甚至超过了有监督的方法。

Apr, 2022

ConaCLIP：探索全连接知识交互图的蒸馏，用于轻量级文本图像检索

本文探讨了如何将知识蒸馏技术扩展到双模态模型情况，并提出了一个全连接知识交互图（Cona）技术，用于跨模态预训练蒸馏，实验证明该方法具有显著的效果。

May, 2023

CLIP 中的协同作用和多样性：通过自适应骨干集成提高性能

对比性语言 - 图像预训练 (CLIP) 是一种重要的图像表示学习方法，本文探讨了不同的 CLIP 训练视觉骨干网络之间的差异，发现它们具有不同的表达方式、在数据集上具有不同的分类性能，以及对某些图像扰动的鲁棒性不同。研究结果表明，在每个测试样例中根据情况选择最佳骨干网络，分类准确性可能提高 40 个百分点以上。基于这一发现，我们提出了一种简单而强大的自适应集成多个骨干网络的方法，该方法可以使用较少数量的已标记样例来调整骨干网络的自适应组合。在大量数据集上，该方法比最佳单一骨干网络的准确性提高了 39.1%，远远超过传统的集成方法。

May, 2024