Jun, 2024

WildBench:基于真实用户的挑战性任务对 LLMs 进行基准测试

TL;DRWildBench 是一个自动评估框架,使用挑战性的真实用户查询来评估大型语言模型。它基于 1,024 个从超过一百万人机对话日志中精心选择的任务构建,并引入了两种具有可计算性的度量标准。通过使用任务特定的检查清单进行评估,并提供结构化解释来支持分数和比较,使得结果更可靠且易于解释。该框架中的度量标准在模型输出方面表现出与人工评分的很强相关性,具有较高的评估效率和成本效益。