Jun, 2024

为什么使用规模预测前沿的人工智能模型的下游能力如此困难?

TL;DR通过使用五个模型家族和十二个多项选择基准测试,我们展示了通过负对数似然性能计算的一系列转换逐渐降低了性能和规模之间的统计关系,同时揭示了导致这种降级的机制:下游度量要求将正确的选择与少量特定的错误选择进行比较,这意味着准确预测下游能力不仅要预测概率质量如何在正确选择上随规模集中,还要预测概率质量如何在特定错误选择上随规模波动。