Jun, 2024

评估 LLM Rationale 的人类对齐度和模型忠实度

TL;DR我们研究了大型语言模型(LLM)如何通过原因来解释其生成的模式,它们是从输入文本中提取出来的一组标记,反映了 LLM 的决策过程。我们使用两种方法提取 LLM 原因:1)基于归因的方法使用注意力或梯度来定位重要的标记,以及 2)基于提示的方法使用提示来引导 LLM 提取原因。通过广泛的实验,我们展示了基于提示的原因与人工注释的原因更好地对齐,即使模型性能差,也能合理地与人类对齐。此外,我们还发现基于提示的方法的忠实度限制可能与它们的折叠预测有关。通过在相应的数据集上微调这些模型,无论是提示方法还是归因方法都展现了更好的忠实度。我们的研究为更严格和公正地评估 LLM 原因提供了启示,尤其是基于提示的方法。