Feb, 2024

tinyBenchmarks: 用较少的样例评估 LLM

TL;DR通过研究 LLM 在各种关键基准测试中的表现,我们探索了减少 LLM 性能评估所需评估次数的策略,并发布了评估工具和微型基准测试,证明这些工具和测试足以可靠高效地复现原始评估结果。