Aug, 2024

DocLayLLM:一种高效且有效的多模态扩展大型语言模型以理解文本丰富的文档

TL;DR本研究解决了文本丰富文档理解的挑战,提出了DocLayLLM,这是一种专为该领域设计的多模态扩展。通过整合视觉补丁标记和2D位置标记,我们提升了大型语言模型对OCR信息的感知能力。实验结果表明,DocLayLLM在轻量化训练设置下表现优异,超越了现有的依赖OCR的方法以及无OCR竞争者。