ICMLMay, 2024

通过动态组合的多头注意力机制改进 Transformer

TL;DR提出了一种动态可组合的多头注意力 (DCMHA) 架构,通过动态组合注意力头解决了多头注意力中的问题,并显著提升了模型的表达能力,达到了与具有大约 1.7-2.0 倍计算量的模型相当的性能水平。