Sep, 2024

DocMamba:基于状态空间模型的高效文档预训练

TL;DR本研究针对视觉丰富文档理解中自注意力机制带来的计算复杂性问题,提出了一种名为DocMamba的新框架,利用状态空间模型将计算复杂度降低为线性,同时保留全局建模能力。此外,通过引入段优先双向扫描(SFBS)方法捕获连续语义信息。实验结果表明,DocMamba在多个下游数据集上达到了新的最先进结果,同时显著提升了处理速度和减少了内存使用。