BriefGPT.xyz
大模型
Ask
alpha
关键词
reversible residual layers
搜索结果 - 1
ICLR
Reformer:高效 Transformer
本文介绍了两种技术以提高 Transformer 的效率:使用局部敏感哈希替换点积注意力和使用可逆残差层代替标准残差层,减少存储激活的次数。改进后的模型 Reformer 在处理长序列时比 Transformer 更加高效。
PDF
4 years ago
Prev
Next