BriefGPT.xyz
大模型
Ask
alpha
关键词
wildbench
搜索结果 - 1
WildBench:基于真实用户的挑战性任务对 LLMs 进行基准测试
WildBench 是一个自动评估框架,使用挑战性的真实用户查询来评估大型语言模型。它基于 1,024 个从超过一百万人机对话日志中精心选择的任务构建,并引入了两种具有可计算性的度量标准。通过使用任务特定的检查清单进行评估,并提供结构化解释
→
PDF
a month ago
Prev
Next