Feb, 2024
tinyBenchmarks: 用较少的样例评估 LLM
tinyBenchmarks: evaluating LLMs with fewer examples
Felipe Maia Polo, Lucas Weber, Leshem Choshen, Yuekai Sun, Gongjun Xu...
TL;DR通过研究 LLM 在各种关键基准测试中的表现,我们探索了减少 LLM 性能评估所需评估次数的策略,并发布了评估工具和微型基准测试,证明这些工具和测试足以可靠高效地复现原始评估结果。