Nov, 2023

CritiqueLLM: 扩展 LLM-as-Critic 以有效且可解释地评估大型语言模型生成

TL;DR自然语言处理社区开始让大规模语言模型(如 GPT-4)扮演批评家以评估生成文本质量,大部分仅在特定数据集上训练特定规模的批判生成模型,我们认为缺乏对于基于语言模型评估模型的关键因素(如可扩展性特性)的全面调查,因此目前是否有潜力在实际场景中取代 GPT-4 的评估仍然没有结论;在本文中,我们提出了一种名为 CritiqueLLM 的新型批判生成模型,采用基于对话的提示方法用于高质量的参考 / 无参考评估数据,实验结果表明,我们的模型在评估性能上可以与 GPT-4 相媲美,尤其在系统级相关性上,甚至在具有挑战性的无参考环境中,在 8 个任务中有 3 个胜过 GPT-4;我们进行详细分析以展示我们模型在生成批评质量方面的可扩展性特性,同时证明我们生成的批评可以作为可扩展反馈,直接提高 LLM 的生成质量。