Jul, 2023

模型是否自我解释:自然语言解释的反事实仿真性

TL;DR本篇论文中,我们提出了一种新的自然语言解释评估方法 —— 反事实模拟性。实验结果显示,当前大型语言模型 (LLMs) 的解释精度相对较低,精度与可信度相关性也不高。因此,单纯依赖人类评判可能不足以解决问题。