使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官
这篇论文通过对多种语言模型作为判断者的性能进行全面研究,发现了使用 Cohen 的 kappa 作为测度对齐度的重要性,并比较了不同模型之间的判断数据;该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类,然而在排名考生模型方面,JudgeLM-7B 和词汇判断器 Contains 比人类的对齐度低多达 34 分。通过错误分析和其他研究,包括指导长度和仁慈偏见的影响,该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。
Jun, 2024
Chatbot Arena 是一种基于人类偏好评估大型语言模型的开放平台,通过对接受众来源的成对比较和众包输入的方式收集数据,并使用经过验证的统计方法进行评估和排名,以确保其可靠性和可信度,成为最有价值和最引用的大型语言模型排行榜之一。
Mar, 2024
通过引入一种新的基准测试,MLLMs 作为评判者,本研究揭示了 MLLMs 在评估任务中的能力,并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异,同时面临着多样的偏见、幻觉反应和不一致问题,强调了对 MLLMs 进一步改进和研究的迫切需求。
Feb, 2024
通过对大规模语言模型进行微调以构建可扩展的评判模型,提出了一种有效评估大规模语言模型的方法,并成功应用于新的基准测试中,获得了最佳表现。
Oct, 2023
采用人类和大型语言模型作为评判者(即人类和 LLM 评判者)来评估现有 LLM 的性能已经引起了关注。然而,这种方法同时引入了人类和 LLM 评判者的潜在偏见,对评估结果的可靠性提出了质疑。本文提出了一种针对 LLM 和人类评判者的 5 种偏见的新框架。我们整理了一个包含 142 个样本的数据集,涉及修订后的布鲁姆分类法,并进行了数千次人类和 LLM 评估。结果表明,人类和 LLM 评判者在不同程度上都容易受到扰动,并且即使是最先进的评判者也存在相当大的偏见。我们进一步利用它们的弱点对 LLM 评判者进行了攻击。我们希望我们的工作能让社区意识到人类和 LLM 评判者在面对扰动时的脆弱性,以及开发健壮评估系统的紧迫性。
Feb, 2024
本文提出了 DialogBench,这是一个用于评估 LLMs 作为类似人类对话系统的能力的对话评估基准,包含 12 个对话任务。通过对 28 个 LLMs 进行广泛的测试,结果表明虽然细化调整能改善 LLMs 的人类对话系统相似度,但对于大多数 LLMs 仍有提升空间。
Nov, 2023
评估 NLP 模型时,使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH,并对 11 个当前的 LLM 进行全面评估,涵盖公开权重和专有模型,以验证其模拟注释的能力。我们的评估结果表明,每个 LLM 在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论,LLM 尚不具备系统替代 NLP 中的人类评审员的能力。
Jun, 2024
在人工智能领域,大型语言模型在多个应用中展示出显著的能力。然而,这些模型在资源较少的语言(如瑞典语)中的表现尚未深入研究。本研究引入了一种综合的人类基准,通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试,结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型(如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin)等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具,以改善我们对瑞典语语言模型性能的理解,并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。
May, 2024
通过民主过程提出了一种新的基准框架 —— 语言模型委员会(LMC),用于在高度主观的任务中对大型语言模型进行排名,通过平等参与来制定测试集,通过集体评估响应来产生更可分离、强健且较少偏差的排名。
Jun, 2024