理解多模态深度神经网络:概念选择视角
我们提出了一个新的显著性方法,称为 Concept Visualization (ConVis),通过利用嵌入式多模态信息解释图像的 CLIP 嵌入。我们使用 WordNet 中的词汇信息计算任何概念的与任务无关的显著性图,并验证了我们对 WordNet 的使用,同时在目标定位基准测试中测试了 ConVis,并且展示了 Concept Visualizations 能够正确识别和定位图像的语义内容。此外,我们进行了用户研究,证明了我们的方法可以让用户了解模型的功能。
May, 2024
该论文提出了一种带有附加概念层的 CNN 架构的引导学习方法,用于学习视觉特征和单词短语之间的关联,并通过优化预测准确性和特征表示的语义来学习与人类感知一致的概念,实验结果表明,所提出的模型可以在不牺牲准确性的情况下学习一致于人类感知的概念,并可将这些学习到的概念转移到具有相似概念的新对象类别中。
Jan, 2021
本论文提出 CME 框架,用于通过基于概念的提取模型分析 DNN 模型,通过 dSprites 和 Caltech UCSD Birds 的两个案例研究表明,CME 可用于分析 DNN 模型学习的概念信息,如何使用这些概念信息来预测输出标签,识别关键的概念信息,进一步提高 DNN 的预测性能,准确率可提高 14%以上,仅使用可用概念的 30%。
Oct, 2020
本篇论文提出了一种基于图像分类器的理解性决策支持系统 (DSS) -- 概念定位地图 (CLMs),它能够增强分类器的可靠性并提供合理的预测解释。通过在训练的图像分类器的潜在空间中定位相应的显著区域,CLMs 可以提供分类器学习和关注人类在图像识别过程中所注重的相似概念的定性和定量保证。研究人员通过一项新的合成数据集 SCDB 和一个现实世界数据集 CelebA 对其进行了评估,并获得了较高的定位召回率,证明了 CLMs 在实践中缓解 DSS 受重视度方面具有巨大的潜力。
May, 2020
通过多模式基础模型设计的可解释算法,实现了快速和可解释的图像分类。通过在概念瓶颈模型的基础上建立一个潜空间,将每个神经元与特定的词语关联,利用高斯混合模型增强潜空间的可解释性,引入 CLIP-QDA 分类器使用统计值来推断概念的标签,同时通过内部设计实现局部和全局解释,并且在 MoG 假设成立的情况下,与最先进的 CBMs 方法达到类似的准确性,计算速度更快,并且解释效果与现有的 XAI 方法相媲美。
Nov, 2023
通过专家定义的概念而不是语言模型生成的概念构建可靠的 Concept Bottleneck Models(CBM),提出了一种使用少量标注的概念示例改善模型概念对齐的对比半监督学习方法,实验证明该方法显著提高了概念准确度和分类准确度。
May, 2024
利用深度学习算法设计了一种多层次概念发现框架,允许人类理解的概念在决策过程中高度解释性,通过图像 - 文本模型和基于数据驱动和稀疏的贝叶斯算法进行多层次概念选择,实验结果表明这种构建不仅胜过最近的 CBM 方法,而且为解释性提供了一个有原则的框架。
Oct, 2023
通过对比性语言图像模型和单一稀疏线性层,我们提出了一个简单而直观的可解释框架,通过基于贝叶斯推理的数据驱动伯努利分布来实现框架中的稀疏性,相比相关方法,在准确性和每个样本概念稀疏性方面均表现出色,为新概念的个体研究提供便利。
Aug, 2023
本篇研究提出了一种基于 CLIP 引导的对比学习的架构,用于执行多模态特征对齐,将来自不同模态的特征投影到一个统一的深度空间,实验结果表明,我们提出的模型在多模态讽刺检测和多模态情感分析任务中明显优于多个基准模型,我们的特征对齐策略相对于其他聚合方法和甚至富含知识的模型也带来了明显的性能增益,此外,我们的模型实现简单,无需使用特定任务的外部知识,因此可以轻松迁移到其他多模态任务。
Mar, 2024