ACLOct, 2021

MarkupLM: 面向富媒体文档理解的文本和标记语言预训练

TL;DR本研究论文探讨了一种名为 MarkupLM 的预训练模型,它能够对 HTML/XML 等标记语言的文档进行理解和分析,相比现有的基于布局的预训练方法,在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明,该预训练模型在多个文档理解任务上,比现有的强基线模型表现更优秀。