Aug, 2023

RCMHA: 相对卷积多头注意力用于自然语言建模

TL;DR在语言建模中,通过利用相对位置编码与深度卷积层架构相结合的改进 MHA 模块,提高准确性并减少内存使用,该模块在实证实验中展现了超越其他注意力模块的优势。