关于忠实性的理论:连续数据上可微分类器的忠实解释
解释性人工智能(XAI)领域旨在解释黑盒机器学习模型的工作方式,而选择合适的方法以及衡量本地解释的忠实度的当前指标缺乏一致性,使得使用者在选择最忠实的解释时感到困惑。
Nov, 2023
本研究评估了多种特征排序方法的忠实度,并量化了限制相关特征对解释能力提高的影响,发现促进特征解释的方法在特征相关性降低后最具忠实度。
Nov, 2022
本综述通过对忠实度的镜头,回顾了超过 110 种自然语言处理中的模型解释方法。我们考虑了忠实度的定义和评估,以及它对可解释性的重要性,并将现有方法分为五类。最后,我们总结了它们的共同优点和未解决的挑战,并反思了未来的研究方向。
Sep, 2022
提出了一种名为 FRESH 的简化模型解释方法,通过使用任意的特征重要性分数来导出二进制标签以训练提取器,再用提取器提供的片段训练独立分类器模块,从而构成可信解释,具有超越端到端方法的预测性能优势并更容易实现。
Apr, 2020
设计 AttributionLab 环境用于测试特征归因方法的可靠性,并提供了一个控制实验室,用于研究特征归因方法、识别问题并提出潜在改进。
Oct, 2023
本文研究了解释系统与预测模型的准确性。通过引入两个属性:一致性和充分性,并介绍了表示它们持有程度的量化度量方式。实验表明这些措施取决于测试数据的分布,并提供了估计器和样本复杂度界限以确定黑盒解释系统的准确性。
Feb, 2022
当我们对图神经网络的预测进行解释时,准确可信的解释是至关重要的。我们发现现有的指标在可信度方面并不可替代,但它们可能对解释的重要属性具有系统性不敏感性,针对这些问题提出了解决方案。对于一类特定的图神经网络结构,追求完全准确可信的解释是没有意义的。与之不同的是,对于自解释和领域不变的模块化图神经网络结构,追求可信度并不会损害信息量,并且与非分布式泛化能力也有意想不到的联系。
Jun, 2024
研究模型训练数据时间跨度与目标数据不同(异步设置)时,时序变化如何影响模型解释正确性,发现不同方法的特征归因存在互相矛盾的行为,需要更多的指标来评估后期解释正确性。
Oct, 2022
本文探讨了深度学习基础下的 NLP 模型识别问题,并呼吁更明确地区分不同标准,其中聚焦于 “忠实性” 标准。通过调查已有研究文献,将现有方法分为三种假设,并提供了具体指南来评估解释方法。最后,提出当前的 “忠实性” 定义是不真实的二元概念,呼吁使用更优选的渐进性概念。
Apr, 2020