Jan, 2024

语言模型基准测试的可预测性如何?

TL;DR通过在 11 种最近的模型架构中研究大规模语言模型在五个数量级的计算规模上的表现,我们发现平均基准性能相当可预测,尽管在特定任务中的性能预测具有挑战性,因此计算规模提供了预测人工智能在不同基准测试中能力的有希望的基础。