May, 2023

DUBLIN -- 语言 - 图像网络理解文档

TL;DR通过预训练 DUBLIN 模型,利用文档图像中的空间和语义信息,包括 Masked Document Content Generation Task、Bounding Box Task 和 Rendered Question Answering Task,实现对象检测和文档图像理解,在各项基准测试中优于现有模型,尤其在 WebSRC 数据集,其 EM 值和 F1 值分别为 77.75 和 84.25,与文本型 SOTA 方法具有可比性。