BriefGPT.xyz
大模型
Ask
alpha
关键词
kernel attention
搜索结果 - 2
ACL
前缀传播:用于长序列的参数有效调整
本论文探讨了为长序列语言任务实现参数有效学习的方法,提出了一种基于前缀传播的简单且有效的方法,在校准和核注意力方面表现出优越性,并且使用的参数比前缀调整少 50%。
PDF
a year ago
具有线性复杂度的自适应多分辨率注意力
本文介绍了一种名为 Adaptive Multi-Resolution Attention(AdaMRA)的新型高效 Transformer 结构,利用多分辨率多头自注意机制,采用核注意力且时间空间都线性地缩放,进一步提高了模型的处理能力。
→
PDF
3 years ago
Prev
Next