BriefGPT.xyz
Ask
alpha
关键词
gated attention unit
搜索结果 - 1
ICML
线性时间中的 Transformer 质量
本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法,新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果,同时在 Wiki-40B 和 PG-19 的自回归语言
→
PDF
2 years ago
Prev
Next