BriefGPT.xyz
Ask
alpha
关键词
feedforward layer
搜索结果 - 1
用于大型稀疏模型的哈希层
本研究通过使用哈希方法对大型 Transformer 模型中使用不同输入参数的稀疏层进行了训练,通过修改前馈层对序列中的当前标记进行哈希以便将其哈希到不同的权重集中,进一步证明此方法可以在不需要额外路由参数或负载平衡损失等的情况下超越或与
→
PDF
3 years ago
Prev
Next