- 基于梯度的自动迭代恢复方法用于参数高效调整
本文利用 TracIn 方法改善了预训练大型语言模型在参数有效调整(PET)任务中的表现,通过 G-BAIR 方法进行梯度自动化迭代恢复,证明了类似 TracIn 的影响方法可以用于自动执行数据清理,并引入了交互式调试和重新标记 PET-b - 基于因果代理模型的概念模型解释
本文旨在探讨对于自然语言处理系统的解释方法中存在的因果推理问题,提出了一个新的 Causal Proxy Model (CPM) 方法,它可以通过近似反事实样本来创建强大的因果解释模型,解释模型性能与黑盒模型类似甚至更好。
- 综合梯度的最大熵基线
该研究提出了一种新的基线方法 —— 最大熵基线,用于解释 Integrated Gradients 方法从而保证解释的可靠性,并结合线性变换不变性进行了改进性的模型评估实验。
- ICML无标签的无监督模型可解释性
该文介绍了两种关键的后处理解释技术扩展:无标签特征重要性和无标签示例重要性,用于黑盒模型在推断时构造表示,并通过定性和定量比较展示了这种无标签可解释性模式的效用。
- 我不能预测的,我就不理解:一个以人为中心的可解释性方法评估框架
本研究通过心理物理实验评估了 AI 系统的说明方法的人类使用者的理解能力,并发现不同的场景对于提高人类理解 AI 系统的说明方法的效果存在较大的差异,因此需要开发提供定性信息的补充方法。
- 特征重要性和反事实解释的鲁棒性调查
研究了金融领域中两类常用的局部解释方法的健壮性,给出了健壮性分析的分类方法和结果,并探讨了如何扩展分析方法以确定可靠的解释方法。
- ICML基于显著性的可解释性方法评估
本文结合三个人体实验研究基于显著性的可解释性方法对于卷积神经网络的解释效果,并评估其可行性。
- CVPRPatch Shortcuts:可解释的代理模型有效地发现黑盒漏洞
该研究探讨了如何使用 BagNet 模型作为黑盒模型的代理,通过其内部的可解释性来检测神经网络的非语义决策,以减少机器学习模型在危险应用中存在的风险。
- 超越注意力可视化的 Transformer 可解释性
本研究提出了一种基于 Deep Taylor Decomposition 原则的计算 Transformer 网络相关性的方法,通过注意力层和跳跃连接进行传播,并通过基于图像分类和文本分类问题的测试表明其在解释性方面优于现有方法。
- ICML模式引导的整合梯度
本研究将 Integrated Gradients 和 PatternAttribution 两种神经网络可解释性方法相结合,形成了 Pattern-Guided Integrated Gradients (PGIG) 方法,并在大规模图像 - 有关模型可解释性的定量方面
本文针对机器学习中可解释性的问题进行了研究,提出了一组度量用于评估不同的可解释性方法,进而解决了目前仅仅依靠定性分析和用户研究来评估不同解释性方法的缺陷。在实验中,通过对不同的基准任务进行验证,并展示如何使用这些度量指导实践者选择最合适的方 - 一个解释并不适用于所有情况:AI 可解释性技术工具包和分类法
介绍了 AI Explainability 360,这是一个开源的工具包,其中包含八种不同的最先进的解释方法和两个评估指标。通过提供分类法来帮助需要解释的实体导航解释方法的空间,并讨论了提高研究创新性的增强版本以将其更接近解释的使用者。
- 使用因果概念效应解释分类器(CaCE)
本文提出 Causal Concept Effect (CaCE) 方法,借助有关联的人类可解释概念,定义并证明了一种深度神经网络的预测因果效应,并运用生成模型 VAE-CaCE 进行模拟,来度量预测错误来源于混淆的可能性,并在大量实验分析