LayoutXLM: 多模态预训练用于多语种视觉丰富文档理解
LayoutLMv2 提出了一种新的预训练架构,通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制,在预训练阶段更好地捕获跨模态交互,实现在 FUNSD,CORD,SROIE,Kleister-NDA,RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。
Dec, 2020
本论文提出了一种基于多模态 Transformer 的分层框架(LAMPreT),并通过分层预训练来训练模型,以实现对文档布局的理解及其内部内容的分类和组合,来更好地进行文本块填充和图像建议两项任务。
Apr, 2021
本研究论文探讨了一种名为 MarkupLM 的预训练模型,它能够对 HTML/XML 等标记语言的文档进行理解和分析,相比现有的基于布局的预训练方法,在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明,该预训练模型在多个文档理解任务上,比现有的强基线模型表现更优秀。
Oct, 2021
本文提出了 LayoutLLM,一种更灵活的文档分析方法,用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势,通过与多模态指令数据集进行微调,提出的模型在单个模型中执行对文档图像的理解,并通过实验证明在各种文档分析任务中改进了基线模型。
Mar, 2024
本文提出了用于扫描文档图像的 LayoutLM 模型,实现了文本和布局信息的联合学习,将其应用于信息提取等实际文档图像理解任务中,成果在多项下游任务中达到最新的技术水平,代码和预训练模型可公开获取。
Dec, 2019
我们提出了 GraphLayoutLM 模型,它利用布局结构图的建模将文档布局知识注入模型,使得模型能够理解文本元素的空间排列,以提高文档的理解能力,并在 FUNSD、XFUND 和 CORD 等基准测试中取得了最先进的结果。
Aug, 2023
本研究提出了一种基于 LLM / MLLM 的文档理解方法 LayoutLLM,核心是一种专门设计的布局指令调整策略,通过布局感知的预训练和布局感知的监督微调来提高对文档布局的理解和利用,同时使用 LayoutCoT 模块来生成准确答案并提升文档理解的性能。
Apr, 2024
研究论文通过设计 DocLLM 模型,结合文本语义和空间布局,以有效地理解企业文件的丰富语义,摆脱昂贵的图像编码器,侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件,通过预训练和微调,优于当前最优模型在多个任务中的性能,并且对于先前未见过的数据集具有较好的泛化能力。
Dec, 2023
本论文提出了一种名为 XYLayoutLM 的鲁棒的布局感知多模态网络,它可以从通过 Augmented XY Cut 生成的正确阅读顺序中捕获和利用丰富的布局信息,并且提出了一种扩展有条件位置编码模块来处理变长输入序列,同时从文本和视觉模态中提取局部布局信息生成位置编码,并在文档理解任务上取得了竞争性的结果。
Mar, 2022