ConSiDERS人类评估框架：重新思考生成式大型语言模型的人类评估

May, 2024

ConSiDERS人类评估框架：重新思考生成式大型语言模型的人类评估

ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models

Aparna Elangovan, Ling Liu, Lei Xu, Sravan Bodapati, Dan Roth

TL;DR通过借鉴用户体验研究和人类行为心理学等学科的见解，我们在这篇论文中讨论了生成式大型语言模型（LLMs）的人工评估应该是一项跨学科工作，以确保实验设计和结果的可靠性。我们强调了认知偏见如何混淆流畅信息和真实性，以及认知不确定性如何影响评分（如Likert）的可靠性。此外，评估应该区分越来越强大的大型语言模型的能力和弱点，这需要有效的测试集。在生成式NLP时代设计一个有效的人工评估系统的可伸缩性也至关重要，因此我们提出了ConSiDERS-The-Human评估框架，它由一致性、评分标准、差异化、用户体验、负责任和可伸缩性这6个支柱组成。

Abstract

In this position paper, we argue that human evaluation of generative large language models (LLMs) should be a multidisciplinary undertaking that draws upon insights from disciplines such as user experience research

发现论文，激发创造

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了LLM对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现LLM评估结果与人类专家的评估结果保持一致。

May, 2023

形式胜于内容：大型语言模型的评估偏见

在评估自然语言生成的过程中，使用大型语言模型 (LLMs) 作为人类评判的替代方法是一种最新的趋势。然而，本研究发现其评估结果存在偏见。为解决这一问题，提出了多维度独立评估系统 (Multi-Elo Rating System)，在提高 LLM 评估质量方面取得了显著成效，但对众包评估没有明显改善，需要进一步探索和改进。

Jul, 2023

哪种提示更具差异性？用于高效人工LLM评估的数据排序

通过度量方法，我们的研究旨在最小化人工评估所需的注释数量，从而提高评估质量并减少时间和成本。我们发现，这种方法有效地降低了模棱两可的结果，对于未来大型语言模型评估具有重要意义。

Oct, 2023

合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用

为了解决开放式自然语言生成任务中评估标准不一致的挑战，我们提出了一种协同评估流程 CoEval，涉及特定任务标准的清单设计和文本的详细评估，其中大型语言模型生成初步的构思，而人类进行审查，结果显示，通过利用大型语言模型，CoEval能够高效地评估长文本，节省时间并减少人类评估的异常值，人类审查仍然起着重要作用，以最终确保可靠性。

Oct, 2023

运行大型语言模型上的认知评估：要注意的事项和不要做的事项

本文描述了评估使用基于语言的行为评估方法来评估大型语言模型（LLMs）认知能力的研究方法考虑因素。作者通过三个案例研究（常识知识基准、心理理论评估和语法一致性测试）描述了在将认知测试应用于LLM时可能出现的常见问题。作者还列出了10个应避免和遵循的指导方针，以帮助设计高质量的人工智能系统的认知评估。最后讨论了当前正在讨论的四个领域 - 提示的敏感性、文化和语言多样性、使用LLMs作为研究助理、以及对开放和封闭LLMs进行评估。总之，本文旨在为快速发展的AI心理学领域中的最佳实践做出贡献。

Dec, 2023

医疗领域生成型大型语言模型人工评估的文献综述与框架

该研究回顾了健康医疗领域中基于大型语言模型的人工智能生成文本的人工评估方法，并使用QUEST框架提出了一个标准化和统一的人工评估方法，旨在提高可靠性和适用性。

May, 2024

语言模型是否喜欢自己的故事？用于自动故事评估的大型语言模型的激励

自动故事评估与生成在社交交互中起到重要作用，研究表明大语言模型能够替代人工评注者，但仍存在解释答案的困难。

May, 2024

大型语言模型符合人们的期待吗？测量人类的普适能力函数

人们使用大型语言模型的目的，以及这些模型的部署决策、人类泛化功能的一致性，以及大型语言模型与人类泛化功能的一致性评估对于模型在特定任务上的表现至关重要。

Jun, 2024

PARIKSHA：多语言和跨文化数据上人类LLM评估者一致性的大规模调查

本研究评估了多语种大型语言模型的性能，发现GPT-4o和Llama-3 70B模型在大多数Indic语言中表现最佳。我们构建了两个评估设置的排行榜，并分析了人类评估和语言模型评估之间的一致性，发现在两两比较的设置下，人类和语言模型的一致性较高，但在直接评估中特别是对于孟加拉语和奥迪亚语等语言，一致性下降。我们还检测了人类和语言模型评估中的各种偏见，并发现GPT评估器存在自我偏见。本研究对多语种大型语言模型的评估具有重要意义。

Jun, 2024

用大型经验研究代替人类法官？跨20个NLP评估任务

评估NLP模型时，使用LLM-generated判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的20个NLP数据集的JUDGE-BENCH，并对11个当前的LLM进行全面评估，涵盖公开权重和专有模型，以验证其模拟注释的能力。我们的评估结果表明，每个LLM在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论，LLM尚不具备系统替代NLP中的人类评审员的能力。

Jun, 2024