May, 2024

ACORN: 方面级常识推理解释评估

TL;DR评估自由文本解释是一个多方面、主观、费时的任务。大型语言模型呈现出一种吸引人的替代方案,因为它们具有一致性、可扩展性和成本效益方面的潜力。在这项工作中,我们提出了 ACORN 数据集,其中包含 3,500 个自由文本解释和按方面的质量评分,并利用该数据集来了解语言模型如何评估解释。我们观察到,有时替换人工评分会维持,但更常见的是降低不同设置和质量方面之间的评分一致性,这表明它们的判断并不总是与人工评定者一致。我们进一步通过比较不同质量方面上 LLM 生成的评分与大多数人工评分之间的相关性来量化这种差异。在最佳系统中,Spearman 等级相关性在不同方面之间的范围为 0.53 到 0.95,平均为 0.72,表示有着中等高度但不完全一致的相关。最后,我们考虑了在人工评定者有限的情况下,使用 LLM 作为额外的评定者的替代方案,并测量了多数人工标签与有限人工队列和 LLM 作为额外评定者之间的相关性,与原始金标签进行比较。当只有两个人工评定者时,GPT-4 改善了结果,在所有其他观察到的情况中,在有三个或更多人工评定者时,LLMs 对结果中立或有害。我们公开发布此数据集以支持未来 LLM 在环评估的改进。