BriefGPT.xyz
大模型
Ask
alpha
关键词
routing transformer
搜索结果 - 1
ACL
基于内容的稀疏注意力路由转换网络
本研究提出了 Routing Transformer,它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块,将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$
→
PDF
4 years ago
Prev
Next