Jun, 2021

用于大型稀疏模型的哈希层

TL;DR本研究通过使用哈希方法对大型 Transformer 模型中使用不同输入参数的稀疏层进行了训练,通过修改前馈层对序列中的当前标记进行哈希以便将其哈希到不同的权重集中,进一步证明此方法可以在不需要额外路由参数或负载平衡损失等的情况下超越或与 Switch Transformers 和 BASE Layers 等学习路由混合专家方法竞争,同时研究了不同的哈希技术、哈希大小和输入特征的表现,并表明了本研究的方法可以在大规模语言建模和对话任务、下游微调任务中表现出色。