ACLMay, 2024

语言模型可以通过概率差异进行自我评估

TL;DR通过证明大型语言模型在回答问题时,如果它们更为熟练,显示更均匀的概率分布,我们启发性地讨论了这个问题。在此基础上,我们提出了一种新的自我评估方法 ProbDiff,用于评估各种语言模型的效能。该方法利用被测试的语言模型计算初始回答与修改版本之间的概率差异,避免了额外评估模型的需要,也不依赖于外部的专有模型如 GPT-4。我们的研究结果表明 ProbDiff 在各种情景下如翻译、摘要生成、我们提出的 “小红书” 博客写作等自然语言生成任务以及 AlignBench、MT-Bench 和 AlpacaEval 等语言模型评估基准上取得了与基于 GPT-4 的评估相当的结果。