DocMamba:基于状态空间模型的高效文档预训练
DocPedia是一种新型的大型多模态模型,用于OCR-free文档理解,能够处理高分辨率图像。通过在频域而不是像素空间中直接处理视觉输入,DocPedia能够利用有限数量的视觉标记捕捉更多的视觉和文本信息。通过开发双阶段训练策略和丰富的训练任务指导/注释,我们不断增强模型的感知和理解能力,实验证实了联合学习感知和理解任务的互利益。结果进一步证明了我们的DocPedia相比其他方法的有效性和优越性能。
Nov, 2023
基于Transformer架构的基础模型凭借其核心注意力模块,驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理,并对此进行了改进,通过让结构状态空间模型(SSMs)参数成为输入的函数来解决离散模态的弱点,该模型在长度可选的维度上选择性地传播或遗忘信息,并且通过在递归模式下设计一种硬件感知并行算法,将这些选择性SSMs集成到简化的端到端神经网络架构中。该模型(Mamba)具有快速推断速度(比Transformers快5倍)和序列长度的线性扩展,并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持,Mamba在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中,我们的Mamba-3B模型在预训练和下游评估中均优于同样大小的Transformers,与其两倍大小的模型性能相当。
Dec, 2023
本文介绍了一种名为Mamba-ND的通用设计,将Mamba架构扩展到任意多维数据,并通过与其他替代方案的比较实证表明Mamba-ND在多个多维基准测试中表现出与最先进方法相竞争的性能。
Feb, 2024
通过优化顺序建模的扫描方向,并采用局部扫描策略和动态方法,本文提出了Vision Mamba (ViM)模型的改进方法,大幅度提高了图像表示的效果。
Mar, 2024
通过在经典的IR任务-文档排序中考察Mamba的效果,我们发现Mamba模型在与具有相同训练方法的基于Transformer的模型相比具有有竞争力的性能,但与flash attention等高效的Transformer实现相比,训练吞吐量较低。我们希望这项研究能够成为探索Mamba模型在其他经典IR任务中的起点。
Mar, 2024
本文解决了文本丰富文档理解中的效率和效果问题,提出了DocLayLLM,这是一种专为文档理解设计的多模态大语言模型扩展。通过将视觉补丁令牌和二维位置令牌集成到大语言模型中,结合链式思维技术,本研究展示了DocLayLLM在训练设置轻量化的情况下,能够显著提升文档理解能力,超越传统的OCR依赖方法和无OCR竞争者。
Aug, 2024
本研究针对 Mamba 模型在长上下文理解中的效率问题,提出了 ReMamba,该模型通过选择性压缩和适应技术,增强了 Mamba 对长上下文的理解能力,且额外推理成本极小。实验结果显示,ReMamba 在 LongBench 和 L-Eval 基准测试中,分别提高了 3.2 和 1.6 的表现,表现接近相同大小的变压器模型。
Aug, 2024
本研究解决了文本丰富文档理解的挑战,提出了DocLayLLM,这是一种专为该领域设计的多模态扩展。通过整合视觉补丁标记和2D位置标记,我们提升了大型语言模型对OCR信息的感知能力。实验结果表明,DocLayLLM在轻量化训练设置下表现优异,超越了现有的依赖OCR的方法以及无OCR竞争者。
Aug, 2024
本研究针对Mamba模型在长上下文理解能力的不足进行了探讨,并提出了ReMamba,旨在提高其长上下文的理解能力。ReMamba通过选择性压缩和适应技术,在两阶段的再前馈过程中引入,几乎不增加额外的推理成本,实验结果表明其在LongBench和L-Eval基准上均显著优于传统基线。
Aug, 2024
本研究针对Mamba模型在长上下文理解能力有限的问题,提出了一种改进的方法ReMamba,通过在两阶段重新前馈过程中引入选择性压缩和适应技术,从而提升了Mamba对长上下文的理解能力。实验结果表明,ReMamba在LongBench和L-Eval基准上分别提高了3.2和1.6个百分点,且性能接近同尺寸的变换器模型。
Aug, 2024