利用自洽性检查作为一种忠实度测量,将其应用于大型语言模型自我解释的三种类型,即反事实解释、重要性度量和删除。通过不同任务和模型,发现忠实度是任务和模型相关的,例如对于情感分类,Llama2 的反事实解释、Mistral 的重要性度量和 Falcon 40B 的删除是更加忠实的。最后,我们的发现在提示变体方面是稳健的。
Jan, 2024
大型语言模型的自解释性及其在高风险决策中的忠诚度与可信度之间的矛盾。
Feb, 2024
介绍了一种提高大型语言模型的自然语言解释质量的生成解释框架 xLLM,该框架通过评估器和迭代优化过程来最大化生成解释的忠实度分数,实验证明 xLLM 可以显著提高生成解释的忠实度。
通过利用 GPT-4 的领域知识和常识能力,我们探索了大型语言模型在图像分类特定环境中生成高级概念作为人类解释的潜力,并通过人类研究评估了其有效性。
Apr, 2024
评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性,并发现我们的度量考虑了 CT 遗漏的忠实性方面。
大型语言模型 (LLMs) 可以通过后期或思维链 (CoT) 解释自己的预测结果,但模型可能会提供合理但不准确的解释。本文对现有的忠诚度测试进行了评估,认为这些测试实际上只测量了模型输出的自我一致性,而非其内部工作的忠诚度。作者提出了基于自我一致性的新测量 CC-SHAP,通过比较模型的输入贡献与答案预测及生成解释之间的一致性,从而更准确地衡量模型的忠诚度。
Nov, 2023
本文探讨了目前逐渐普及应用的神经模型的透明度和可理解性的需求,提出了三种可信度测量方法,并在对不同模型架构的比较中使用 VQA-X 和 e-SNLI-VE 数据集进行了评估。
Apr, 2023
本文探讨了如何提高复杂机器学习系统的可解释性,通过介绍采用基于诚实度的指标的局部元解释技术,给出了一个可行的解决方案。
Dec, 2022
评估可解释性模型的统一框架是该论文的重点,它介绍了各个研究群体对解释性评估的重叠和语义错位,并提出了解释的可行性和可理解性的评估标准,以及基于可解释神经网络的学习行为预测的案例。
May, 2024
用可理解的人类概念来解释模型的全局解释的不稳定性问题以及提出了一种基于不确定性的贝叶斯估计方法,可以提高概念解释的可靠性。
Dec, 2023