模型调试解释效用基准测试
通过使用心理度量学中的 Krippendorf's alpha 来量化图像分类后置解释方法的可靠性,本研究提出了模型训练改进方法,包括使用扰动样本和采用焦点损失函数,以增强鲁棒性和校准性。经验证实,跨度度量、数据集和后置方法,该开创性工作在可靠性评估上取得了显著改进,为后置解释方法的更可靠评估实践奠定了基础,并强调了模型鲁棒性在评估过程中的重要性。
Nov, 2023
研究了后续模型解释对于诊断模型错误的有效性,通过将错误按来源分类为数据、模型和测试时污染性错误,评估了几种解释方法对查找虚假相关性、误标记训练实例、诊断非初始化模型、检测测试时污染输入等错误的能力,发现这些方法能够发现虚假背景错误,但不能明确识别误标记的训练实例,同时某些方法对深度网络高层参数缺乏鲁棒性,不能有效诊断模型污染性错误。人类主体研究表明,人们未能使用归因来识别有缺陷的模型,而是主要依赖于模型预测。这些结果为研究人员和从业者在使用解释作为模型调试工具时提供了指导。
Nov, 2020
本文探讨了后设反事实解释方法对数据和分类器的基本假设导致其在很多情况下的不可靠性,并提出了近似性、连通性和稳定性三种量化方法和途径。另外,本文还证明了后设反事实方法不满足这些属性的风险。
Jun, 2019
评估 LIME 和 SHAP 两种常用工具的用户可理解性和可预测性,发现 SHAP 对于接近模型决策边界的样本提供的解释可理解性显著降低。此外,发现反事实解释和错误分类可以显著增加用户对机器学习模型决策的理解。根据研究结果,提出为未来的事后解释方法提供增加可理解性和可预测性的设计建议。
Sep, 2023
这篇论文探讨了在人工智能中黑盒模型的广泛应用,加强了揭示这些模型是如何做出决策的需求,首先提出一种基于返回信息类型的解释方法分类,展示最近和广泛使用的解释器,通过视觉比较和定量基准测试进行展示。
Feb, 2021
本文探讨了已有的文本分类数据集不能准确反映真实应用场景的问题,并提出了两点解决方案:一是在文本分类数据集中增加可解释性的评价指标,二是通过人类的应用场景与判断加强数据集的教学力度。
Nov, 2022
该论文探索了自然语言处理中有关如何在不同领域中提取精准的解释的方法,其中侧重于后续解释和固有的忠诚度模型,并且发现后续解释的忠诚度在许多情况下比在领域内更高,而在跨域设置中,选择后预测模型的预测性能与完整训练模型相当。
Feb, 2022