ICCVJun, 2021

DocFormer: 文档理解的端到端 Transformer

TL;DR本文介绍了基于多模态变压器的 DocFormer 架构,它以无监督预训练方式运行,能够更好地理解各种格式和布局的文档,并结合了文本、视觉和空间特征,实现了多模态自注意层和共享学习空间嵌入等特点,使其在四个数据集上均取得了业界领先的结果。