本研究论文探讨了一种名为 MarkupLM 的预训练模型,它能够对 HTML/XML 等标记语言的文档进行理解和分析,相比现有的基于布局的预训练方法,在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明,该预训练模型在多个文档理解任务上,比现有的强基线模型表现更优秀。
Oct, 2021
本论文提出了一种基于多模态 Transformer 的分层框架(LAMPreT),并通过分层预训练来训练模型,以实现对文档布局的理解及其内部内容的分类和组合,来更好地进行文本块填充和图像建议两项任务。
Apr, 2021
LayoutLMv2 提出了一种新的预训练架构,通过在一个多模态框架中建模文本、布局和图像之间的交互以及整合空间感知自注意机制,在预训练阶段更好地捕获跨模态交互,实现在 FUNSD,CORD,SROIE,Kleister-NDA,RVL-CDIP 和 DocVQA 等下游视觉丰富的文档理解任务上新的最先进结果。
Dec, 2020
本文提出了基于多任务学习和预训练技术的框架,利用文本、版面和图像的多模态信息学习通用文档表示,以支持多种下游文档任务,并在标准文档数据集上进行了广泛实验。
Sep, 2020
本文提出了一种基于 LayoutXLM 的多模态预训练模型,用于多语言文档理解,并在名为 XFUND 的多语言表单理解基准数据集上进行了验证,结果表明 LayoutXLM 模型在跨语言预训练方面优于现有的 SOTA 模型。
该研究提出了一种全卷积网络,通过多模态方法从文档图像中提取语义结构,并使用像素级分割方式考虑文档的语义结构提取。该方法不仅考虑文本的视觉外观,还考虑文本的内容,通过有效的合成文档生成数据进行预训练和半监督学习方法滴定优化网络架构,施加于真实文档上,此方法极大地提高了分割的性能表现。
Jun, 2017
我们提出了一种名为 Wiki-LLaVA 的方法,通过一个分层检索流程,将多模态文档的外部知识源集成到 LLM 中,用作额外的上下文,从而增强了生成的对话的效果和准确性。我们在具有外部数据的视觉问答数据集上进行了大量实验,并证明了该方法的适用性。
Apr, 2024
提供了一种简化、任务无关的多模态预训练方法,可以接受视频或文本输入,或两者皆可用于各种端任务。实验结果表明,在多种任务中表现出比以前的方法更强的性能,通常优于任务特定的预训练。
May, 2021
本综述论文全面介绍了深度学习多模态体系结构的演变和增强,以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务:包括最新的任务特定的深度学习方法,多模态预训练目标,以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。
Feb, 2023
本文提出了 LayoutLLM,一种更灵活的文档分析方法,用于理解图像化文档。通过利用现有研究在文档图像理解和大规模语言模型的优势,通过与多模态指令数据集进行微调,提出的模型在单个模型中执行对文档图像的理解,并通过实验证明在各种文档分析任务中改进了基线模型。
Mar, 2024