EMNLPOct, 2023

评估指标在 GPT-4 时代:可靠评估大型序列到序列任务上的语言模型

TL;DR通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。