Sep, 2022

ERNIE-mmLayout: 多粒度多模态文档理解 Transformer

TL;DR提出了一种多粒度多模态 Transformer 模型,并引入全局语义信息与视觉重要区域进行分类,实现了对自然语义单位相干性的搜索并通过比较实验证明了模型优越性。