学习的视觉特征到文本解释
利用视觉 - 语言模型识别视觉分类任务中的基于语言的描述器,通过在图像和文本之间的预训练联合嵌入空间进行线性组合,得出每个单词与基于视觉的分类器的关联度权重,从而使非专家人员能够以非平凡水平完成专业医学任务。
Nov, 2023
将视觉语言模型(VLMs)与大型语言模型(LLMs)相结合的迭代优化与视觉反馈方法,显著提高了图像分类性能,并产生了可解释和稳健的特征描述符。
Nov, 2023
该研究旨在提供计算机辅助教学的解释方式,建立一个能够为学习者提供理解性反馈的框架,指导学习者更好地理解相关概念和知识点。研究表明,相较于其他传统方法,该框架能够显著提高学习者在复杂分类任务中的表现。
Feb, 2018
提出了一种新方法,即检测特征交互来构建分层解释,从而可视化不同层级中单词和短语的组合方式,帮助用户理解黑匣子模型的决策过程,并在 LSTMs、CNNs 和 BERTs 三个神经文本分类器的两个基准数据集上进行了评估,通过自动和人工评估实验证明此方法提供的解释既忠实于模型,又易于解释。
Apr, 2020
提出了一种新的深度学习视觉识别模型,可根据可见物体的特征进行分类,并生成解释说明预测标签的原因,该模型使用了一种基于采样和强化学习的新型损失函数,能够生成与现有描述方法不同的描述结果。
Mar, 2016
该论文提出了一种可解释的深度学习模型 - MTXNet,着重于图像中的文本的多模态解释生成,并使用包含视觉信息和多种文本解释的新颖数据集 TextVQA-X 进行训练和评估,显示出该多模态解释与人类解释一致,有助于为模型的决策提供有用的见解。该模型解释效果的得分在 CIDEr 方面优于单模态模型至多 7%,在 IoU 方面优于单模态模型至多 2%。
Apr, 2021
本文介绍了一种基于描述符的视觉语言模型分类方法,通过查询大型语言模型获取描述符,实现从中获得更多的信息并提供可解释性;实验证明了该方法在图像分类精度,适应新概念和缓解偏差等方面有着广泛的优势。
Oct, 2022
通过分析信息流的动态流动,我们发现信息流似乎在浅层中汇聚,进一步的研究揭示了浅层中图像令牌的冗余,因此引入了一个截断策略来聚合这些浅层内的图像令牌,该方法通过多个模型上的实验证实,并获得了一致的改进。
Jun, 2024
本文提出了一种基于内部特征及可视化的方法,能够自动识别预先训练模型中与给定类相关的特征,以进行深度模型的解释和阐释,并且提出了一种针对 deconvNet 可视化操作引入的伪像问题的方法,同时还提出了一个专门用于视觉解释方法客观定量评估的数据集 an8Flower。实验证明,该方法在 MNIST、ILSVRC12、Fashion144k 和 an8Flower 数据集上能够产生具有良好主题相关特征覆盖的详细解释。
Dec, 2017