Sep, 2022
ERNIE-mmLayout: 多粒度多模态文档理解 Transformer
ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding
Wenjin Wang, Zhengjie Huang, Bin Luo, Qianglong Chen, Qiming Peng...
TL;DR提出了一种多粒度多模态 Transformer 模型,并引入全局语义信息与视觉重要区域进行分类,实现了对自然语义单位相干性的搜索并通过比较实验证明了模型优越性。