ICCVAug, 2023

文档布局分析的视觉网格变换器

TL;DR本文介绍了 VGT 模型,它是一种双流视觉格点变换器,通过提出并预训练 GiT 来实现 2D 令牌级和段级语义理解,利用多模态信息和预训练技术为文档布局分析学习更好的表示。此外,还通过 D$^4$LA 数据集,在文档布局分析中达到了最新的最佳性能。