BriefGPT.xyz
大模型
Ask
alpha
关键词
compute scaling
搜索结果 - 3
从解码到元生成:大型语言模型的推理时间算法
通过对大型语言模型的研究,发现在训练过程中提高计算能力可以取得更好的结果,然而对于推断阶段提高计算能力的好处却没有得到足够的关注。本文调查了推断阶段的几种方法,包括基于令牌级别的生成算法、元生成算法和高效生成方法,并从传统自然语言处理、现代
→
PDF
10 days ago
语言模型基准测试的可预测性如何?
通过在 11 种最近的模型架构中研究大规模语言模型在五个数量级的计算规模上的表现,我们发现平均基准性能相当可预测,尽管在特定任务中的性能预测具有挑战性,因此计算规模提供了预测人工智能在不同基准测试中能力的有希望的基础。
PDF
6 months ago
以 ReLU 替代 Vision Transformers 中的 softmax
通过在视觉变换器上进行实验,我们发现当将注意力 softmax 替换为 ReLU 等点层激活时,通过将结果除以序列长度可以减轻准确性下降现象。我们在 ImageNet-21k 上对各种规模的视觉变换器进行训练的实验表明,对于计算扩展性而言,
→
PDF
10 months ago
Prev
Next