Aug, 2024

评估评估者:测量大型语言模型对任务评估的遵循性

TL;DR本研究探讨了大型语言模型(LLMs)在任务评估中的有效性,特别是评估它们是否真正反映人类偏好。我们分析了插入不同指令的提示对评估结果的影响,并提出了一种以模型困惑度为质量衡量的无提示方法。研究发现,尽管提示可以提供指导,但在某些情况下,困惑度与人类评判的吻合度更高,表明提供详细提示的收益有限。