Jun, 2024

LiveBench:一个具有挑战性和无污染的 LLM 基准测试

TL;DR为了解决测试集污染和评估中的偏见问题,研究引入了一种新的测试基准 LiveBench,该基准通过包含来自最新信息源的问题和按照客观真实值自动评分的答案,来评估不同大小的封闭源和开源模型的能力。