介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM,该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数,实验证明 xLLM 可以显著提高生成解释的忠实度。
Feb, 2024
利用自洽性检查作为一种忠实度测量,将其应用于大型语言模型自我解释的三种类型,即反事实解释、重要性度量和删除。通过不同任务和模型,发现忠实度是任务和模型相关的,例如对于情感分类,Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后,我们的发现在提示变体方面是稳健的。
Jan, 2024
通过对情感分析、意图检测和主题标记等三个自然语言处理任务中选定的易解释算法与专家解释方法的综合定量比较,我们的研究表明,传统的基于扰动的方法 Shapley value 和 LIME 可以同时实现更高的准确度和用户可访问性,与模型的推理过程、领域专家一致的解释方式。这一发现提示我们在优化解释算法时应当以双重目标为导向,以实现准确度和用户可理解性的双重提高。
Mar, 2024
大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果,但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估,认为这些测试实际上只测量了模型输出的自我一致性,而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP,通过比较模型的输入贡献与答案预测及生成解释之间的一致性,从而更准确地衡量模型的忠诚度。
Nov, 2023
本综述通过对忠实度的镜头,回顾了超过 110 种自然语言处理中的模型解释方法。我们考虑了忠实度的定义和评估,以及它对可解释性的重要性,并将现有方法分为五类。最后,我们总结了它们的共同优点和未解决的挑战,并反思了未来的研究方向。
Sep, 2022
我们的研究调查了大型语言模型生成解释的能力,发现零样本提示通常导致不忠实的结果。为了解决这些挑战,我们提出了多代理辩论修正(MADR)框架,利用多个具有不同角色的大型语言模型作为代理,在迭代的修饰过程中提高了生成解释的忠实性。MADR 确保最终的解释经过严格验证,显著降低了不忠实元素的可能性,并与提供的证据紧密相符。实验证明,MADR 显著提高了大型语言模型生成解释与证据的忠实性,提升了这些解释的可信度和可靠性。
使用概念可信度和可读性作为评估概念解释的方法,通过量化忠诚度和自动测量可读性来解决黑箱模型的透明度问题。通过可靠性和有效性进行元评估,验证并选择概念评估措施。
Apr, 2024
评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性,并发现我们的度量考虑了 CT 遗漏的忠实性方面。
本篇论文中,我们提出了一种新的自然语言解释评估方法 —— 反事实模拟性。实验结果显示,当前大型语言模型 (LLMs) 的解释精度相对较低,精度与可信度相关性也不高。因此,单纯依赖人类评判可能不足以解决问题。
Jul, 2023
本文探讨评估自然语言解释(NLEs)忠实度的挑战性问题,提出了两个测试:第一个是插入导致反事实预测的原因的反事实输入编辑器,第二个是从生成的 NLEs 中说明的原因中重建输入并检查它们导致相同预测的频率。我们的测试可以评估新兴的 NLE 模型,是开发忠实 NLE 的基本工具。
May, 2023