Aug, 2024

跨层注意力共享的大型语言模型

TL;DR本研究针对大型语言模型中由于深度和参数数量增加而导致的冗余问题,提出了一种新的解决方案。通过深入分析,发现各层之间的注意力模式高度相似,因此引入了一种名为LiSA的轻量级自注意力替代方案,它通过小型前馈网络对齐相邻层的注意力头并利用低秩矩阵近似层间注意力权重的差异。实验表明,LiSA在减少53-84%冗余计算的同时,保持了高响应质量。