BriefGPT.xyz
大模型
Ask
alpha
关键词
downstream capabilities
搜索结果 - 2
为什么使用规模预测前沿的人工智能模型的下游能力如此困难?
通过使用五个模型家族和十二个多项选择基准测试,我们展示了通过负对数似然性能计算的一系列转换逐渐降低了性能和规模之间的统计关系,同时揭示了导致这种降级的机制:下游度量要求将正确的选择与少量特定的错误选择进行比较,这意味着准确预测下游能力不仅要
→
PDF
a month ago
通过多令牌预测实现更好、更快的大型语言模型
我们建议通过训练语言模型来预测多个未来标记,以提高样本利用效率,并对其下游能力进行改进,特别是在多词预测作为辅助训练任务时,在代码和自然语言生成模型方面获得了显著的改善。
PDF
2 months ago
Prev
Next