ICMLMay, 2024
通过动态组合的多头注意力机制改进 Transformer
Improving Transformers with Dynamically Composable Multi-Head Attention
Da Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan
TL;DR提出了一种动态可组合的多头注意力 (DCMHA) 架构,通过动态组合注意力头解决了多头注意力中的问题,并显著提升了模型的表达能力,达到了与具有大约 1.7-2.0 倍计算量的模型相当的性能水平。