ACLMay, 2024

ConSiDERS 人类评估框架:重新思考生成式大型语言模型的人类评估

TL;DR通过借鉴用户体验研究和人类行为心理学等学科的见解,我们在这篇论文中讨论了生成式大型语言模型(LLMs)的人工评估应该是一项跨学科工作,以确保实验设计和结果的可靠性。我们强调了认知偏见如何混淆流畅信息和真实性,以及认知不确定性如何影响评分(如 Likert)的可靠性。此外,评估应该区分越来越强大的大型语言模型的能力和弱点,这需要有效的测试集。在生成式 NLP 时代设计一个有效的人工评估系统的可伸缩性也至关重要,因此我们提出了 ConSiDERS-The-Human 评估框架,它由一致性、评分标准、差异化、用户体验、负责任和可伸缩性这 6 个支柱组成。