XDoc: 跨格式文档理解的统一预训练

EMNLPOct, 2022

XDoc: 跨格式文档理解的统一预训练

XDoc: Unified Pre-training for Cross-Format Document Understanding

Jingye Chen, Tengchao Lv, Lei Cui, Cha Zhang, Furu Wei

TL;DR提出了一种名为 XDoc 的文档理解模型，该模型采用了预训练和微调框架用于处理不同格式的文档，该模型具有参数效率和适应性层等优点。

Abstract

The surge of pre-training has witnessed the rapid development of document understanding recently. pre-training and fine-tuning framework has been effectively used to tackle texts in various formats, including pla

pre-training document understanding xdoc model parameter efficiency adaptive layers

发现论文，激发创造

文档理解的统一预训练框架

UDoc 是一个新的文档理解的统一预训练框架，它通过使用三个自监督损失约束表示模型，将单词和视觉特征作为输入，使神经网络从无标签的数据中学习到更好的文档表示，并取得了下游任务的提升。

Apr, 2022

基于统一模态屏蔽的序列到序列预训练用于视觉文档理解

本文提出 GenDoc，这是一个使用序列到序列模型进行预训练的通用文档理解模型，该模型采用编码器 - 解码器架构，可适应多种输出格式的下游任务，通过包括掩码图像令牌预测和掩码布局预测在内的多个任务进行预训练，采用分离的注意力和模态专家策略来有效地捕获每种模态利用的信息，实验结果显示，与最先进的方法相比，该模型具有更强的鲁棒性。

May, 2023

TransferDoc: 一种自监督可转移的文档表示学习模型，统一视觉和语言

TransferDoc 是跨模态 transformer 架构，通过在自我监督学习中使用三个新颖的预训练目标，实现更丰富的语义概念的学习，从而在工业评估场景中胜过其他最先进的方法。

Sep, 2023

DOCmT5: 多语言语言模型的文档级预训练

本文介绍了一个多语言序列到序列的自然语言模型 DOCmT5，采用大规模平行文档进行预训练和一种名为 DrMT 的文档重排机器翻译方法，通过在各种文档级处理任务上进行，包括文档翻译、跨语言摘要等，达到了业内领先的结果。

Dec, 2021

SelfDoc: 自我监督文件表示学习

SelfDoc 是一个文档图像理解的任务无关的预训练框架，利用文档的位置、文本和视觉信息，并建模内容块之间的上下文关系，提出了一种新的跨模态学习模型，优于现有模型，同时具有自适应的视觉语言融合机制并应用自监督模型预训练，与以前作品相比，使用较少的文档图片达到更好的性能。

Jun, 2021

LayoutXLM: 多模态预训练用于多语种视觉丰富文档理解

本文提出了一种基于 LayoutXLM 的多模态预训练模型，用于多语言文档理解，并在名为 XFUND 的多语言表单理解基准数据集上进行了验证，结果表明 LayoutXLM 模型在跨语言预训练方面优于现有的 SOTA 模型。

Apr, 2021

基于多模态多任务学习的文档表示学习预训练框架

本文提出了基于多任务学习和预训练技术的框架，利用文本、版面和图像的多模态信息学习通用文档表示，以支持多种下游文档任务，并在标准文档数据集上进行了广泛实验。

Sep, 2020

UL2: 统一语言学习范式

提出一个统一框架的预训练模型，通过 Mixture-of-Denoisers 目标函数实现不同预训练目标的整合，将不同的预训练范例结合在一起，对于多个不同领域的数据集都具有普适性，并在规模为 20B 参数下的 50 个 NLP 任务上取得了最先进的表现。

May, 2022

跨文档问答：通过跨文档问答改进多文档建模

本研究提出了一种新的跨文档问答预训练目标，并通过将其与多文档预训练目标相结合的方法，预训练了一个泛用的多文档模型 QAmden，并在多项任务的测试中获得了高达 7% 的提升，在多篇文本问答和总结方面表现优秀。

May, 2023

MarkupLM: 面向富媒体文档理解的文本和标记语言预训练

本研究论文探讨了一种名为 MarkupLM 的预训练模型，它能够对 HTML/XML 等标记语言的文档进行理解和分析，相比现有的基于布局的预训练方法，在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明，该预训练模型在多个文档理解任务上，比现有的强基线模型表现更优秀。

Oct, 2021