ALMANACS: 一种用于语言模型解释可解释性的可模拟性基准测试
本研究提出了一种新的评估自然语言生成模型的生成解释质量的方法,利用模型的 “可模拟性” 衡量生成的解释质量,并提供了多个案例研究以及优化生成解释质量的算法。
Oct, 2020
本文研究机器学习模型的解释方法对模型可解释性方面的影响,通过两类涉及文本和表格数据的模拟测试,评估了五种解释方法的有效性,表明模型可模拟性在分类表格方面使用 LIME 可以得到改善,而我们的 Prototype 方法在反事实的模拟测试中也是有效的。本文的结果显示,我们需要对评估解释方法的指标进行谨慎处理,并且当前方法仍有很大的改进空间。
May, 2020
本文介绍了 MaNtLE,一个模型无关的自然语言解释器,在结构化分类任务中分析多个分类器预测,并生成忠实的自然语言解释器,模拟的用户研究表明,MaNtLE 生成的解释器平均比 LIME 和 Anchors 解释器忠实度高至少 11%。
May, 2023
本篇论文中,我们提出了一种新的自然语言解释评估方法 —— 反事实模拟性。实验结果显示,当前大型语言模型 (LLMs) 的解释精度相对较低,精度与可信度相关性也不高。因此,单纯依赖人类评判可能不足以解决问题。
Jul, 2023
本篇论文提出一种新颖的扩展方法,将因果关系显式编码进生成输入实例的数据以解释增加信任度和帮助用户评估解释质量的 XAI 方法,并通过实验表明该方法对于拟合黑匣子和解释稳定性均达到了比初始方法更优越的表现。
Dec, 2022
大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果,但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估,认为这些测试实际上只测量了模型输出的自我一致性,而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP,通过比较模型的输入贡献与答案预测及生成解释之间的一致性,从而更准确地衡量模型的忠诚度。
Nov, 2023
评估语言模型偏见的全面评估基准数据集(CALM)是用于量化与比较语言模型社会人口统计偏见的重要资源,通过整合现有数据集并构建包含 78,400 个样例的 244 个模板的数据集,CALM 数据集更具多样性和可靠性,能更好地评估语言模型的广度和偏见。
Aug, 2023
ASTxplainer 是针对代码 LLMs 的一种可解释性方法,不仅能提供 LLM 评估的新方法,还能通过可视化 LLM 预测结果帮助终端用户理解模型预测。通过在常用的 GitHub 项目上进行实证评估和用户研究,研究结果表明 ASTxplainer 有潜力深入研究 LLM 的效能,并帮助终端用户理解预测结果。
Aug, 2023
本文提出了一种基于自编码语言模型的集成学习方法,称为 ALMEn,用于常识验证和解释,在 SemEval-2020 任务 4 的基准数据集上表现良好,可区分违反常识的自然语言陈述并正确识别其原因,验证和解释选择子任务的准确性分别达到 97.9%和 95.4%,超过了现有的最先进模型。
Apr, 2022
通过引入名为 Galeras 的基准测试策略,将统计学严谨性引入 LLMs 的评估,该论文展示了因果推断评估在降低混杂偏差方面的实践成果,为分析准确度指标提供了可解释性的解决方案。
Aug, 2023