COLINGMar, 2024

ChatGPT 对自然语言解释质量的评级如人类一样:但在哪些尺度上?

TL;DRAI 的透明度和责任感的需求增加了,因为对 AI 决策背后的推理进行自然语言解释(NLE)对于澄清重要,但通过人的判断进行评估复杂且资源密集,由于主观性和对细粒度评分的需求。本研究探索了 ChatGPT 与人类评估之间的一致性,涵盖了二元、三元和 7-Likert 量表多个等级尺度。我们从三个 NLE 数据集中抽取了 300 个数据样本,并收集了 900 个人类注释,用于信息量和清晰度评分作为文本质量度量。我们还在不同主观性得分范围内进行了配对比较实验,其中基线来源于 8,346 个人类注释。我们的结果表明,在粗粒度尺度上,ChatGPT 与人类的一致性更好。配对比较和动态提示(即在提示中提供语义上相似的示例)提高了一致性。该研究推进了我们对大型语言模型的理解,以在不同配置中评估文本解释质量,为负责任的 AI 发展做出贡献。