Nov, 2023

高效端到端视觉文档理解与根据聚类

TL;DR通过小型的预训练图像到文本模型,我们在像素级视觉语言理解的端到端模型中学习选择性文本或布局识别和推理,取得了在信息图表、扫描文档和图像三个视觉文档理解基准中的一致性改进,超过直接预测答案的相似 Pix2Struct 模型 4% 以上。