Apr, 2022

LayoutLMv3: 统一文本和图片遮盖的文档 AI 预训练

TL;DR本文提出的 LayoutLMv3 是一种用于文档人工智能的多模态 Transformer 的预训练方法,用于统一文本和图像遮蔽,并通过预测文本单词的对应图像块是否被遮蔽的方式进行跨模态对齐。实验结果表明,LayoutLMv3 不仅在文本中心任务中实现了最先进的性能,而且在以图像为中心的任务中也是如此。