DocMamba：基于状态空间模型的高效文档预训练

Sep, 2024

DocMamba：基于状态空间模型的高效文档预训练

DocMamba: Efficient Document Pre-training with State Space Model

Pengfei Hu, Zhenrong Zhang, Jiefeng Ma, Shuhang Liu, Jun Du...

TL;DR本研究针对视觉丰富文档理解中自注意力机制带来的计算复杂性问题，提出了一种名为DocMamba的新框架，利用状态空间模型将计算复杂度降低为线性，同时保留全局建模能力。此外，通过引入段优先双向扫描（SFBS）方法捕获连续语义信息。实验结果表明，DocMamba在多个下游数据集上达到了新的最先进结果，同时显著提升了处理速度和减少了内存使用。

Abstract

In recent years, visually-rich Document Understanding has attracted increasing attention. Transformer-based pre-trained models have become the mainstream approach, yielding significant performance gains in this field. However, the self-attention mechanism's quadratic computational comp

发现论文，激发创造

DocPedia: 在频域释放大型多模态模型的能力，实现多功能文档理解

DocPedia是一种新型的大型多模态模型，用于OCR-free文档理解，能够处理高分辨率图像。通过在频域而不是像素空间中直接处理视觉输入，DocPedia能够利用有限数量的视觉标记捕捉更多的视觉和文本信息。通过开发双阶段训练策略和丰富的训练任务指导/注释，我们不断增强模型的感知和理解能力，实验证实了联合学习感知和理解任务的互利益。结果进一步证明了我们的DocPedia相比其他方法的有效性和优越性能。

Nov, 2023

Mamba：具有选择性状态空间的线性时间序列建模

基于Transformer架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性SSMs集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比Transformers快5倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的Mamba-3B模型在预训练和下游评估中均优于同样大小的Transformers，与其两倍大小的模型性能相当。

Dec, 2023

Mamba-ND：针对多维数据的选择性状态空间建模

本文介绍了一种名为Mamba-ND的通用设计，将Mamba架构扩展到任意多维数据，并通过与其他替代方案的比较实证表明Mamba-ND在多个多维基准测试中表现出与最先进方法相竞争的性能。

Feb, 2024

LocalMamba：具有窗口选择性扫描的视觉状态空间模型

通过优化顺序建模的扫描方向，并采用局部扫描策略和动态方法，本文提出了Vision Mamba (ViM)模型的改进方法，大幅度提高了图像表示的效果。

Mar, 2024

RankMamba，在变形金刚时代评估Mamba的文档排名性能

通过在经典的IR任务-文档排序中考察Mamba的效果，我们发现Mamba模型在与具有相同训练方法的基于Transformer的模型相比具有有竞争力的性能，但与flash attention等高效的Transformer实现相比，训练吞吐量较低。我们希望这项研究能够成为探索Mamba模型在其他经典IR任务中的起点。

Mar, 2024

DocLayLLM：一种高效且有效的多模态大语言模型扩展，用于文本丰富的文档理解

本文解决了文本丰富文档理解中的效率和效果问题，提出了DocLayLLM，这是一种专为文档理解设计的多模态大语言模型扩展。通过将视觉补丁令牌和二维位置令牌集成到大语言模型中，结合链式思维技术，本研究展示了DocLayLLM在训练设置轻量化的情况下，能够显著提升文档理解能力，超越传统的OCR依赖方法和无OCR竞争者。

Aug, 2024

ReMamba：为 Mamba 提供有效的长序列建模

本研究针对 Mamba 模型在长上下文理解中的效率问题，提出了 ReMamba，该模型通过选择性压缩和适应技术，增强了 Mamba 对长上下文的理解能力，且额外推理成本极小。实验结果显示，ReMamba 在 LongBench 和 L-Eval 基准测试中，分别提高了 3.2 和 1.6 的表现，表现接近相同大小的变压器模型。

Aug, 2024

DocLayLLM：一种高效且有效的多模态扩展大型语言模型以理解文本丰富的文档

本研究解决了文本丰富文档理解的挑战，提出了DocLayLLM，这是一种专为该领域设计的多模态扩展。通过整合视觉补丁标记和2D位置标记，我们提升了大型语言模型对OCR信息的感知能力。实验结果表明，DocLayLLM在轻量化训练设置下表现优异，超越了现有的依赖OCR的方法以及无OCR竞争者。

Aug, 2024

ReMamba：赋予Mamba有效的长序列建模能力

本研究针对Mamba模型在长上下文理解能力的不足进行了探讨，并提出了ReMamba，旨在提高其长上下文的理解能力。ReMamba通过选择性压缩和适应技术，在两阶段的再前馈过程中引入，几乎不增加额外的推理成本，实验结果表明其在LongBench和L-Eval基准上均显著优于传统基线。

Aug, 2024

ReMamba：赋予Mamba有效的长序列建模能力

本研究针对Mamba模型在长上下文理解能力有限的问题，提出了一种改进的方法ReMamba，通过在两阶段重新前馈过程中引入选择性压缩和适应技术，从而提升了Mamba对长上下文的理解能力。实验结果表明，ReMamba在LongBench和L-Eval基准上分别提高了3.2和1.6个百分点，且性能接近同尺寸的变换器模型。

Aug, 2024