Apr, 2025

LongMamba:通过无训练的感受野扩展增强Mamba的长上下文能力

TL;DR本研究针对Mamba模型在长上下文理解任务中表现不佳的问题,提出了一种无训练的新技术LongMamba,以增强其长上下文能力。LongMamba通过识别并过滤关键标记,缓解了全局通道中的隐藏状态记忆衰减,从而在不增加额外训练的情况下,显著提升了Mamba模型在长上下文场景下的表现。