通过对传统的可解释性测试进行评估,发现在复杂数据方面存在随机优势问题。为了解决这个问题,我们提出了三种基于趋势的可信度测试,并通过实证研究证明新的趋势测试可以更好地评估图像、自然语言和安全任务的可信度。我们实施了评估系统并评估了十种常用的解释方法,从中获得了前所未有的发现,启发了未来的研究。同时,可信度测试也极大地提高了下游任务的效果。例如,配备可靠的解释方法的模型调试在检测和修正准确性和安全性问题方面表现出更好的性能。
Sep, 2023
大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果,但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估,认为这些测试实际上只测量了模型输出的自我一致性,而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP,通过比较模型的输入贡献与答案预测及生成解释之间的一致性,从而更准确地衡量模型的忠诚度。
Nov, 2023
评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性,并发现我们的度量考虑了 CT 遗漏的忠实性方面。
Apr, 2024
本文提出 Faithfulness-through-Counterfactuals 方法并验证了其在模型验证及故障诊断中的有效性。该方法通过对逻辑谓词表达的对立假设进行模型预测一致性验证,无需额外的训练验证模型。
May, 2022
在研究机器学习模型内部推理过程的解释方法越来越受到关注的今天,我们发现不同的忠诚度评估指标在比较不同的解释时显示出冲突的偏好,因此我们旨在对广泛采用的忠诚度指标进行全面而比较的研究,并引入两个评估维度:诊断性和时间复杂性,根据实验结果,我们发现足够性和综合性指标具有更高的诊断性和更低的时间复杂度。
Apr, 2022
解释性人工智能(XAI)领域旨在解释黑盒机器学习模型的工作方式,而选择合适的方法以及衡量本地解释的忠实度的当前指标缺乏一致性,使得使用者在选择最忠实的解释时感到困惑。
为了解决生成 “黑盒” 深度学习模型准确解释的需要,本论文提出了一种基于模型不可知的、敏感性敏感度和信任度为核心的评估方法。该方法通过对多种卷积神经网络解释方法进行比较来验证其可行性,并探讨了敏感性与信任度的关系及该方法在其他领域的应用
Jun, 2023
使用概念可信度和可读性作为评估概念解释的方法,通过量化忠诚度和自动测量可读性来解决黑箱模型的透明度问题。通过可靠性和有效性进行元评估,验证并选择概念评估措施。
大型语言模型的自解释性及其在高风险决策中的忠诚度与可信度之间的矛盾。
Feb, 2024
本综述通过对忠实度的镜头,回顾了超过 110 种自然语言处理中的模型解释方法。我们考虑了忠实度的定义和评估,以及它对可解释性的重要性,并将现有方法分为五类。最后,我们总结了它们的共同优点和未解决的挑战,并反思了未来的研究方向。
Sep, 2022