Mar, 2024

TextMonkey: 一个无需 OCR 的大型多模态模型用于理解文档

TL;DR我们介绍了 TextMonkey,一个大型多模态模型(LMM),该模型针对以文本为中心的任务,包括文档问题回答(DocVQA)和场景文本分析。通过采用零初始化的 Shifted Window Attention,我们在更高的输入分辨率下实现了跨窗口连接,并稳定了早期训练;我们假设图像可能包含冗余的标记,通过使用相似性过滤显著的标记,我们不仅可以简化标记长度,还可以提高模型的性能。此外,通过扩展模型的能力,包括文本定位和基准化,并将位置信息融入响应中,我们增强了可解释性并减少了产生虚幻结果的情况。另外,TextMonkey 可以进行微调,以具备理解点击截图命令的能力。总体而言,我们的方法显著提升了在各种基准数据集上的性能,尤其在 OCRBench 上获得了 561 分的分数,超过了先前用于文档理解的开源大型多模态模型。代码将在此 URL 发布。