May, 2023
DUBLIN -- 语言 - 图像网络理解文档
DUBLIN -- Document Understanding By Language-Image Network
Kriti Aggarwal, Aditi Khandelwal, Kumar Tanmay, Owais Mohammed Khan, Qiang Liu...
TL;DR通过预训练 DUBLIN 模型,利用文档图像中的空间和语义信息,包括 Masked Document Content Generation Task、Bounding Box Task 和 Rendered Question Answering Task,实现对象检测和文档图像理解,在各项基准测试中优于现有模型,尤其在 WebSRC 数据集,其 EM 值和 F1 值分别为 77.75 和 84.25,与文本型 SOTA 方法具有可比性。