Aug, 2024

从变压器到状态空间模型:将二次知识提炼为亚二次模型

TL;DR本文针对现有变压器模型在推理时的二次时间复杂度问题,提出了一种新的提炼方法。该方法通过将变压器与状态空间模型视作不同的混合矩阵应用,在多层次上逐步提炼变压器架构,最终实现了基于Phi-1.5架构的Mamba-2变体的惊人性能表现。此研究表明,状态空间模型可以有效利用变压器训练过程中投入的计算资源,开启了新型模型构建的可能性。