哪种提示更具差异性?用于高效人工LLM评估的数据排序
通过稀疏反馈的设计选择以及反馈协议对大型语言模型(LLMs)的对齐和评估进行分析,发现评分和排名所推断的偏好在人类和人工智能注释者中有显著差异,并揭示了对齐LLMs评估的方法中的关键缺陷和对反馈协议的强烈依赖。
Aug, 2023
通过对大型语言模型的评估,本文发现LLM-based evaluators在多语言评估方面可能存在偏差,并需要使用本地语言的数据集进行校准。
Sep, 2023
通过评估多个用户定义的标准,使用自然语言描述系统的评估器提供的反馈,从而使开发人员能够通过迭代改进引导语。与手动评估相比,EvalLM有助于参与者构建更多样化的标准,检查两倍数量的输出,并在减少59%的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。
Sep, 2023
大型语言模型(LLMs)作为通过简单提示和上下文学习的自动评估器已被证明有效。本研究汇集了四个不同规模范围的15个LLMs,并通过系统之间的偏好排序来评估它们的输出响应,如System Star优于System Square。我们引入了LLMs作为评估器的认知偏差基准(CoBBLEr)来评估排序输出的质量,该基准用于衡量LLM评估输出中的六种不同的认知偏差,如自我中心偏差,其中模型倾向于高度评估其自身的输出。我们发现LLMs是有偏差的文本质量评估器,在评估中展示出强烈的偏见基准迹象(在所有模型中的比较平均为40%),这对其作为评估器的稳健性提出了质疑。此外,我们检查了人类和机器偏好之间的相关性,并计算出平均Rank-Biased Overlap(RBO)得分为49.6%,表明机器偏好与人类不一致。根据我们的发现,LLMs可能仍然不能用于与人类偏好对齐的自动注释。我们的项目页面位于此https URL。
Sep, 2023
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
为了解决开放式自然语言生成任务中评估标准不一致的挑战,我们提出了一种协同评估流程 CoEval,涉及特定任务标准的清单设计和文本的详细评估,其中大型语言模型生成初步的构思,而人类进行审查,结果显示,通过利用大型语言模型,CoEval能够高效地评估长文本,节省时间并减少人类评估的异常值,人类审查仍然起着重要作用,以最终确保可靠性。
Oct, 2023
介绍了Eval4NLP 2023共享任务,要求参与者在机器翻译和摘要评估中探索提示和分数提取,并评估了参与者的方法。在没有fine-tuning的限制下,最佳系统的表现与使用更大模型开发的最新的无参考度量标准(包括GEMBA和Comet-Kiwi-XXL)相媲美甚至超过,并对LLMs的解释的可行性进行了小规模人类评估。
Oct, 2023
通过将任务分解为更细粒度的评估标准,然后根据人类偏好进行聚合和修剪,HD-Eval框架提供了一种改进LLM评估器对人类喜好的对齐的方法,并在多个层次上全面捕捉自然语言的方面。
Feb, 2024
提出一种基于最大偏差(MAD)竞争的样本有效人工评估方法,用于评估大型语言模型的能力与相对优劣,并针对知识理解、数学推理、写作和编码等四种技能,提供有价值的进一步研究发展的见解。
Apr, 2024
通过借鉴用户体验研究和人类行为心理学等学科的见解,我们在这篇论文中讨论了生成式大型语言模型(LLMs)的人工评估应该是一项跨学科工作,以确保实验设计和结果的可靠性。我们强调了认知偏见如何混淆流畅信息和真实性,以及认知不确定性如何影响评分(如Likert)的可靠性。此外,评估应该区分越来越强大的大型语言模型的能力和弱点,这需要有效的测试集。在生成式NLP时代设计一个有效的人工评估系统的可伸缩性也至关重要,因此我们提出了ConSiDERS-The-Human评估框架,它由一致性、评分标准、差异化、用户体验、负责任和可伸缩性这6个支柱组成。
May, 2024