Chatbot Arena: 通过人类偏好评估 LLM 的开放平台

Mar, 2024

Chatbot Arena: 通过人类偏好评估 LLM 的开放平台

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li...

TL;DRChatbot Arena 是一种基于人类偏好评估大型语言模型的开放平台，通过对接受众来源的成对比较和众包输入的方式收集数据，并使用经过验证的统计方法进行评估和排名，以确保其可靠性和可信度，成为最有价值和最引用的大型语言模型排行榜之一。

Abstract

large language models (LLMs) have unlocked new capabilities and applications; however, evaluating the alignment with human preferences sti

large language models chatbot arena evaluating human preferences llm developers

发现论文，激发创造

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于 LLM 的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM 评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

LLM 自动竞技场：利用代理人对战和委员会讨论自动化评估 LLM

Auto-Arena 是一个自动、稳健且可信赖的评估框架，利用 LLM 代理自动化了整个评估过程，通过候选 LLM 之间的多轮对决以及 LLM 评委小组的讨论和决策，解决了 LLMs 评估的偏见和公平性问题，在 17 个最新的 LLMs 上得到了最高的与人类偏好的相关性，为人类评估平台提供了一个有希望的替代方案。

May, 2024

从众包数据到高质量基准：Arena-Hard 和 BenchBuilder 流程

通过 BenchBuilder 工具从 Chatbot Arena 收集的大量数据中提取高质量的基准测试，从而为开发者提供了一个有价值的工具，使他们能够轻松地从广泛的数据中提取高质量的基准测试，进而提升评估基准。

Jun, 2024

通过人工反馈评估大型语言模型：建立瑞典基准

在人工智能领域，大型语言模型在多个应用中展示出显著的能力。然而，这些模型在资源较少的语言（如瑞典语）中的表现尚未深入研究。本研究引入了一种综合的人类基准，通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试，结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型（如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin）等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具，以改善我们对瑞典语语言模型性能的理解，并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。

May, 2024

语言模型委员会：以共识的方式对高度主观任务进行基准测试基础模型

通过民主过程提出了一种新的基准框架 —— 语言模型委员会（LMC），用于在高度主观的任务中对大型语言模型进行排名，通过平等参与来制定测试集，通过集体评估响应来产生更可分离、强健且较少偏差的排名。

Jun, 2024

ChatEval：基于多智能体辩论的 LLM 评估器改进

通过多代理辩论框架，构建了一个名为 ChatEval 的多代理裁判团队，用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量，分析结果表明 ChatEval 不仅仅提供文本评分，还提供了模拟人类评估过程以进行可靠评估。

Aug, 2023

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

评估 LLM 申请的挑战：自动、人工和基于 LLM 的方法分析

聊天机器人的评估是一个重要问题，本研究介绍了一种综合评估机制，该机制结合了人类评估和基于 LLM 的评估，并通过实验证明基于因子的评估在 LLM 应用中提供更好的洞察力，进一步加强了在主要功能不是直接检索的关键空间中使用人类评估的论点。

Jun, 2024

LLMArena: 评估大型语言模型在动态多智能体环境中的能力

近期大型语言模型（LLM）在实现具备人类级智能的自主代理方面显示出了潜力，然而现有用于评估 LLM 代理的基准要么使用静态数据集，可能导致数据泄露，要么仅关注单一代理情景，忽略多代理交互的复杂性。我们引入了 LLMArena，这是一个新颖且易于扩展的框架，用于评估 LLM 在多代理动态环境中的各种能力。LLMArena 涵盖了七个不同的游戏环境，使用 Trueskill 评分来评估 LLM 代理的关键能力，包括空间推理、战略规划、数值推理、风险评估、沟通、对手建模和团队协作。通过对不同规模和类型的 LLM 进行广泛实验和人类评估，研究表明 LLM 在对手建模和团队协作方面仍有很长的发展道路，希望 LLMArena 能指导未来的研究，进一步增强 LLM 的这些能力，最终实现在动态多代理环境中更复杂和实用的应用。代码和数据将提供。

Feb, 2024

使用 LLMs 探索定性研究

本研究对语言模型（LLMs）的理解能力进行了比较和对照，发现人类分析师和 LLMs 的分类和推理能力存在显著差异，但二者合作可能会产生协同效应，从而丰富了定性研究。

Jun, 2023