BriefGPT.xyz
Ask
alpha
关键词
optimal sparsity
搜索结果 - 1
基础模型稀疏连接的扩展规律
我们探讨了参数稀疏性对在大规模数据集上训练的 Transformer(即 “基础模型”)的扩展行为的影响,涉及视觉和语言领域。我们首次确定了描述权重稀疏性、非零参数数量和训练数据量之间关系的扩展定律,并通过 ViT/JFT-4B 和 T5/
→
PDF
10 months ago
Prev
Next