Jun, 2024
从众包数据到高质量基准:Arena-Hard 和 BenchBuilder 流程
From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline
Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu...
TL;DR通过 BenchBuilder 工具从 Chatbot Arena 收集的大量数据中提取高质量的基准测试,从而为开发者提供了一个有价值的工具,使他们能够轻松地从广泛的数据中提取高质量的基准测试,进而提升评估基准。