Jun, 2024

DHA:通过自适应头融合从 Transformer 检查点学习分离头注意力

TL;DR通过分析注意力冗余,设计了一种解耦式头部注意力机制(Decoupled-Head Attention,DHA),达到性能和效率之间的更好平衡,通过逐步线性融合类似头部参数来将 Multi-Head Attention(MHA)模型转换为 DHA 模型,实现了预训练预算的极大节约和高性能的平衡。