BEExAI:可解释人工智能评估基准
通过发布一套合成数据集及相应的特征归因(feature attribution)算法基准测试库 XAI-Bench,可以有效评估和比较不同的特征归因方法,解决了在检验真实数据集上评估模型可解释性的难题。
Jun, 2021
文章讨论了机器学习模型解释性和可解释性的多方面问题,并提出了12个概念性属性,如紧凑性和正确性来全面评估解释的质量。文章还提供了定量XAI评估方法的广泛概述,以及提供了创新的库和方法帮助研究人员和从业者彻底验证、基准测试和比较新的和现有的XAI方法。
Jan, 2022
介绍了OpenXAI——一种全面的且可扩展的开源框架,用于评估和基准测试事后解释方法。 OpenXAI包括一个灵活的合成数据生成器和各种真实世界数据集,预先训练的模型和最先进的特征归因方法的集合,以及评估解释方法准确性、稳定性和公平性的22种定量度量的开源实现,并且该框架还包含公开的XAI排行榜,用于基准测试解释方法。
Jun, 2022
提出了一种名为Compare-xAI的基准测试框架,该框架统一了xAI算法的所有排他性功能测试方法,帮助研究人员、从业人员和普通人解释模型结果,同时提供了可互动的用户界面。
Jun, 2022
本文提出了一个元评估框架MetaQuantus,以较可靠的方式鉴别不同解释质量度量方法在特定的解释情境下的性能,包括其对噪声的鲁棒性和对随机性的反应性,并通过一系列实验展示了其有效性。该工具可用于验证和基准测试新建构的度量衡,从而为建立可靠的方法提供清晰的、理论上的指导,以促进Explainable AI领域中的标准化和可重复性。
Feb, 2023
本文比较了14个不同的评估指标在9种最先进的XAI方法和3种用作参考的虚拟方法(如随机显著性图)上的应用结果,结果表明其中一些指标会产生高度相关的结果,还展示了基准超参数变化对评估指标值的显著影响,最后使用虚拟方法评估指标的可靠性及其排名方面的限制。
May, 2023
本文探讨不同非线性分类场景下,解释性人工智能模型的表现,并通过一系列实验测试发现,当前流行的XAI方法往往无法显著提高准确性基线和边缘检测方法,甚至在不同模型结构下产生非常不同的解释,存在误解的风险。
Jun, 2023
我们提出了一种新的评估方法,用于基准测试最先进的可解释AI归因方法,该方法由合成的分类模型及其衍生的地面实况解释组成,该方法提供了关于XAI方法输出的更深入的洞察。
Aug, 2023
OpenHEXAI是一个开源框架,旨在解决人工智能可解释性方法的人类中心评估的挑战,它包括多样的基准数据集、预训练模型和事后解释方法、易于使用的用户研究Web应用、全面的评估指标以及实验证明最佳实践的工具。基于OpenHEXAI,该研究进一步对四种最先进的事后解释方法进行了系统评估,并比较了它们在准确性、公平性以及用户对机器学习模型的信任和理解方面对人工智能决策任务的影响。
Feb, 2024
该研究论文介绍了一个旨在改善复杂机器学习模型可解释性的解释性人工智能(XAI)领域的发展趋势,并提出了一个初始的基准测试平台 EXACT,该平台结合了各种基准数据集和新颖的性能评估指标,为评估 XAI 方法提供了一个标准化的基础。
May, 2024