Feb, 2024

DenseMamba:具有密集隐藏连接的状态空间模型,用于高效的大型语言模型

TL;DR通过在 SSM 中选择性地将浅层隐藏状态集成到深层中,DenseSSM 提供了一种增强隐藏信息流动的新方法,能够在保持训练并行性和推理效率的同时,显著提高各种 SSM 类型的性能。