Dec, 2022

多模态树解码器用于文档图像中的目录提取

TL;DR本文提出了一个新的端到端的模型,使用多模式树解码器 (MTD) 来作为 HierDoc 的基准评测,在提取文档标题和分级之间的关系时,模型使用文本、视觉、布局信息等多模态特征进行融合,最终在 TEDS 相似度度量和 F1-Measure 上平均分别达到了 87.2% 和 88.1% 的表现。