Dec, 2023

DocLLM: 多模态文档理解的自适应生成语言模型

TL;DR研究论文通过设计DocLLM模型,结合文本语义和空间布局,以有效地理解企业文件的丰富语义,摆脱昂贵的图像编码器,侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件,通过预训练和微调,优于当前最优模型在多个任务中的性能,并且对于先前未见过的数据集具有较好的泛化能力。