BriefGPT.xyz
Ask
alpha
关键词
decoupled-head attention
搜索结果 - 1
DHA:通过自适应头融合从 Transformer 检查点学习分离头注意力
通过分析注意力冗余,设计了一种解耦式头部注意力机制(Decoupled-Head Attention,DHA),达到性能和效率之间的更好平衡,通过逐步线性融合类似头部参数来将 Multi-Head Attention(MHA)模型转换为 D
→
PDF
a month ago
Prev
Next