Aug, 2024

ReMamba:赋予Mamba有效的长序列建模能力

TL;DR本研究针对Mamba模型在长上下文理解能力有限的问题,提出了一种改进的方法ReMamba,通过在两阶段重新前馈过程中引入选择性压缩和适应技术,从而提升了Mamba对长上下文的理解能力。实验结果表明,ReMamba在LongBench和L-Eval基准上分别提高了3.2和1.6个百分点,且性能接近同尺寸的变换器模型。