ACLMar, 2024

视觉引导的生成式文档布局预训练

TL;DR给定一张文档图像,本研究提出了一种名为 ViTLP 的视觉引导生成文本 - 布局预训练模型,通过生成交错文本和布局序列来优化层次化语言和布局建模目标,以处理任意长度的文字密集型文档,并有效应用于各种下游的视觉文档理解任务。