Oct, 2023

大规模语言模型在自动评估中的深入研究

TL;DR使用大型语言模型(LLMs)评估文本质量近来变得流行。本文分析了LLM评估(Chiang和Lee,2023)和G-Eval(Liu et al.,2023),讨论了评估过程中的细节如何改变LLMs给出的评分与人类评分的相关性。我们发现G-Eval中使用的自动思维链(CoT)并不总是使G-Eval与人类评分更加一致。我们还表明,强制LLM仅输出数字评分,如G-Eval中所示,是不理想的。最后,我们揭示出要求LLM解释其自身评分会持续改善ChatGPT与人类评分之间的相关性,并在两个元评估数据集上推动了最新技术的相关性。