May, 2024
ConSiDERS人类评估框架:重新思考生成式大型语言模型的人类评估
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation
for Generative Large Language Models
TL;DR通过借鉴用户体验研究和人类行为心理学等学科的见解,我们在这篇论文中讨论了生成式大型语言模型(LLMs)的人工评估应该是一项跨学科工作,以确保实验设计和结果的可靠性。我们强调了认知偏见如何混淆流畅信息和真实性,以及认知不确定性如何影响评分(如Likert)的可靠性。此外,评估应该区分越来越强大的大型语言模型的能力和弱点,这需要有效的测试集。在生成式NLP时代设计一个有效的人工评估系统的可伸缩性也至关重要,因此我们提出了ConSiDERS-The-Human评估框架,它由一致性、评分标准、差异化、用户体验、负责任和可伸缩性这6个支柱组成。