Feb, 2024

线性动力学嵌入神经网络用于长序列建模

TL;DR长序列建模中性能和计算效率之间的权衡成为现有模型的瓶颈,本文基于控制理论中具有多输入和多输出的连续状态空间模型(SSMs),提出了一种新型神经网络,称为线性动力学嵌入神经网络(LDNN)。通过对角化和解耦然后快速傅里叶变换(FFT)的两种高效策略,将卷积的时间复杂度从 O (LNHmax {L, N}) 降低到 O (LNmax {H, log L}),实现了 LDNN 在长序列任务中的少参数、灵活推断和高效训练。我们通过双向非因果和多头设置进一步改进了 LDNN,以适应更广泛的应用领域。对长距离竞技场(LRA)进行了大量实验证明了 LDNN 的有效性和最先进的性能。