WildBench：基于真实用户的挑战性任务对 LLMs 进行基准测试

Jun, 2024

WildBench：基于真实用户的挑战性任务对 LLMs 进行基准测试

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander...

TL;DRWildBench 是一个自动评估框架，使用挑战性的真实用户查询来评估大型语言模型。它基于 1,024 个从超过一百万人机对话日志中精心选择的任务构建，并引入了两种具有可计算性的度量标准。通过使用任务特定的检查清单进行评估，并提供结构化解释来支持分数和比较，使得结果更可靠且易于解释。该框架中的度量标准在模型输出方面表现出与人工评分的很强相关性，具有较高的评估效率和成本效益。

Abstract

We introduce wildbench, an automated evaluation framework designed to benchmark large language models (LLMs) using challenging, real-world

wildbench automated evaluation large language models metrics model outputs

发现论文，激发创造

TaskBench: 用于任务自动化的大型语言模型基准测试

最近，大型语言模型的不断进展引发了任务自动化的火花，其将用户指令描述的复杂任务分解为子任务，并调用外部工具执行它们，在自主代理中起着核心作用。然而，缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此，我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言，任务自动化可以分为三个关键阶段：任务分解，工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集，我们引入了工具图的概念来表示用户意图中的分解任务，并采用反指导方法来模拟用户指令和注释。此外，我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明，TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合，TaskBench 相对于人工评估具有高一致性，可以作为 LLM-based 自主代理的全面而可靠的基准。

Nov, 2023

从众包数据到高质量基准：Arena-Hard 和 BenchBuilder 流程

通过 BenchBuilder 工具从 Chatbot Arena 收集的大量数据中提取高质量的基准测试，从而为开发者提供了一个有价值的工具，使他们能够轻松地从广泛的数据中提取高质量的基准测试，进而提升评估基准。

Jun, 2024

WildVision：使用人类偏好评估在野外的视觉语言模型

最近在视觉语言模型（VLMs）中取得的突破强调了在真实世界中多模态交互中对人类偏好的基准测试的必要性。为了弥补这一差距，我们推出了 WildVision-Arena（WV-Arena），这是一个在线平台，收集人类偏好以评估 VLMs。我们通过从 WV-Arena 的 8,000 个用户提交中选择 500 个高质量样本来策划 WV-Bench。WV-Bench 使用 GPT-4 作为评判标准，将每个 VLM 与 Claude-3-Sonnet 进行比较，在 WV-Arena Elo 上实现了 0.94 的斯皮尔曼相关性。这在很大程度上超过了像 MMVet，MMMU 和 MMStar 这样的其他基准测试。我们对 2 万个现实世界的交互的全面分析揭示了表现最佳的 VLMs 的失败案例中的重要见解。例如，我们发现虽然 GPT-4V 在简单的视觉识别和推理任务方面超过了 Reka-Flash，Opus 和 Yi-VL-Plus 等许多其他模型，但它仍然面临着微妙的上下文提示，空间推理，视觉想象力和专家领域知识的挑战。此外，当前的 VLMs 在受到故意引发时存在幻觉和安全问题。我们正在发布我们的聊天和反馈数据，以进一步推进 VLMs 领域的研究。

Jun, 2024

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于 LLM 的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM 评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

RewardBench：评估语言建模的奖励模型

RewardBench 是一个用于评估奖励模型的基准数据集和代码库，旨在增强对奖励模型科学理解的同时，深入了解用于语言模型对齐的不透明技术以及其中嵌入的价值观。通过包含多个难度级别、结构化和分布外查询的提示 - 赢 - 输三元组，我们对通过各种方法训练的奖励模型进行了评估，并针对拒绝、推理限制和指示跟随等方面的问题提出了许多发现，以促进对 RLHF 过程的更好理解。

Mar, 2024

LiveBench：一个具有挑战性和无污染的 LLM 基准测试

为了解决测试集污染和评估中的偏见问题，研究引入了一种新的测试基准 LiveBench，该基准通过包含来自最新信息源的问题和按照客观真实值自动评分的答案，来评估不同大小的封闭源和开源模型的能力。

Jun, 2024

NaturalCodeBench: 检视 HumanEval 和自然用户提示对编码性能不匹配的问题

大型语言模型在生产性活动的代码生成方面表现出强大的能力。然而，当前的代码合成基准主要面向算法和数据科学的入门任务，在真实世界的编码中对具有挑战性的要求不够满足。为了填补这一差距，我们提出了 NaturalCodeBench（NCB）作为一个具有挑战性的代码基准，旨在模拟真实编码任务的复杂性和多样性。NCB 由来自在线编码服务的自然用户查询中精心挑选的 402 个高质量问题组成，涵盖了 6 个不同领域。我们还引入了半自动化流程来提高测试用例构建的效率，相比手动解决方案，效率提高了 4 倍以上。我们对 39 个大型语言模型进行了系统实验，发现在 NCB 上，具有接近 HumanEval 评分的模型之间的性能差距仍然可能很大，表明对实际代码合成场景的关注不足或在 HumanEval 上过度优化。另一方面，即使是表现最佳的 GPT-4 在 NCB 上仍然远未令人满意。评估工具和开发集可在此 URL 获取。

May, 2024

通过人工反馈评估大型语言模型：建立瑞典基准

在人工智能领域，大型语言模型在多个应用中展示出显著的能力。然而，这些模型在资源较少的语言（如瑞典语）中的表现尚未深入研究。本研究引入了一种综合的人类基准，通过强制选择排序来评估主要的语言模型在理解和生成瑞典语文本方面的有效性。我们使用改进的 ChatbotArena 基准测试，结合人类反馈来评估包括 GPT-4、GPT-3.5、各种 Claude 和 Llama 模型以及定制模型（如 Dolphin-2.9-llama3b-8b-flashback 和 BeagleCatMunin）等十一种不同模型的性能。这些模型是基于它们在 LMSYS chatbot arena 和 Scandeval 基准测试中的表现选择的。我们发布 chatbotarena.se 基准测试作为一种工具，以改善我们对瑞典语语言模型性能的理解，并希望它能被广泛使用。我们的目标是在收集和分析足够的数据后创建一个排行榜。

May, 2024

语言模型委员会：以共识的方式对高度主观任务进行基准测试基础模型

通过民主过程提出了一种新的基准框架 —— 语言模型委员会（LMC），用于在高度主观的任务中对大型语言模型进行排名，通过平等参与来制定测试集，通过集体评估响应来产生更可分离、强健且较少偏差的排名。

Jun, 2024

CogBench：一个大型语言模型进入心理学实验室

大型语言模型在人工智能领域取得了显著进展，然而它们的综合评估仍具挑战性。本研究引入了 CogBench 评估工具，包含七项认知心理学实验中衍生出的十项行为度量指标，并运用这一工具对 35 个大型语言模型进行了分析。研究结果突出了模型规模和人类反馈的强化学习在性能提升和与人类行为的一致性方面的关键作用。此外，本研究还探讨了提示工程技术的影响，发现链式思路提示能够改善概率推理，而退一步思考提示则促进了基于模型的行为。

Feb, 2024