- CVPR房间里的喧嚣大象:你的离群检测器对标签噪声是否鲁棒?
通过对 20 种最先进的 OOD 检测方法进行大量实验,我们发现类标签噪声对 OOD 检测有重要影响,现有方法中错误分类的 ID 样本与 OOD 样本之间的差异较小是一个被忽视的限制。
- 注意力与事后解释性相遇:数学视角
通过数学研究,我们发现后续方法能够捕捉到比仅仅检查注意力权重更有用的见解,并且它们与基于注意力机制的解释结果存在明显差异。
- 无需重新训练的典型自解释模型
通过 K-Means Explainer(KMEx)方法,将任何现有的预训练模型转换为原型式可自解释模型,以实现更透明的基于深度学习的决策,通过无需重新训练基础模型的类原型解释,保证解释的多样性和可信度,提供了一种简单但高效的普适方法。
- IJCAI解释性模型的含义:范围评述
应用人工智能模型的可解释性方法在特定应用问题中需要进行评估,而对于 80% 的应用论文,这些方法并未进行任何形式的评估。
- 时间序列深度模型解释:一份综述
本篇论文介绍了基于反向传播、扰动和近似等后处理方法的时间序列模型后解释的广泛范围。我们提出了内在可解释模型的新颖类别,并介绍了用于说明的常见评估指标及时间序列可解释性问题未来研究的方向。
- 评估隐式可解释性的后解释性
本文对基于切片图像的乳腺癌转移检测问题,将时下最流行的用于深度神经网络(DNN)可解释性的后置解释方法(Post-hoc)和内置解释方法(Intrinsic)应用于一种新的可解释性 DNN,ProtoPNet,并比较了这两种方法的兴趣图像( - EMNLP关于时间概念漂移对模型解释的影响
研究模型训练数据时间跨度与目标数据不同(异步设置)时,时序变化如何影响模型解释正确性,发现不同方法的特征归因存在互相矛盾的行为,需要更多的指标来评估后期解释正确性。
- 通过策略规范化对智能体进行特征化的强化学习
该论文提出了一种基于正则化的强化学习方法,使代理人的行为具有指定的特征,从而增强了透明度和可解释性,并可应用于金融领域的个性化投资组合优化。
- 神经网络自然语言处理的事后可解释性:一项综述
本文主要讨论了近期后续方法如何向人类传达模型解释的分类,深入讨论了每种方法及其验证过程。
- 输入梯度是否突出显示区别特征?
本文提出一种评估框架 DiffROAR 和 MNIST 半真实数据集 BlockMNIST,用于检验模型对输入梯度的响应,研究表明采用对抗性模型可以更好的体现输入梯度的任务特征,这一发现为提高解释性提供了启示。
- EMNLP特征重要性的多种表现:比较文本分类中的内置和事后特征重要性
本研究对比了使用内置机制(如注意力值)和近似模型行为的事后方法(如 LIME)产生的分类器特征重要性,发现无论使用哪种方法,传统模型如 SVM 和 XGBoost 的重要特征更相似,而与深度学习模型不同;事后方法往往会比内置方法生成更相似的 - 上下文解释网络
提出使用 CEN(contextual explanation networks)架构进行预测,生成中间简化的概率模型作为解释,为每个预测生成有效的、实例特定的解释,并可用于决策支持。CEN 架构不仅和现有的最先进方法相竞争,且在决策支持方