Jun, 2022

Bi-VLDoc: 面向视觉丰富的文档理解的双向视觉-语言建模

TL;DR本文提出了一种名为Bi-VLDoc的预训练模型,该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用,以学习具有更丰富语义的更强的跨模态文档表示,并在模型效果上显著优于现有模型,包括文档理解、文档分类和文档视觉问答等领域。