Aug, 2024

通过分组FIR滤波和注意力泄漏机制增强的结构化状态空间模型

TL;DR本研究解决了结构化状态空间模型(SSMs)在训练过程中由于递归矩阵乘法引入的敏感性问题。提出的分组FIR增强SSM(GFSSM)通过将A乘法分解为多个组,并优化位置编码,显著提高了模型的稳定性和性能,具有重要的应用潜力。此方法在提升SSMs的表现的同时,也弥补了其与Transformer之间的差距。