ACLJul, 2022

GMN: 实用文档信息提取的生成式多模型网络

TL;DR该论文提出了一种面向实际场景的多模态生成方法 GMN,利用空间编码器和模态感知掩模模块处理复杂文档的噪声 OCR 结果或可变布局,并避免了字符级注释,实验证明 GMN 在公共 DIE 数据集上取得了新的最佳性能,并且在现实场景中优于其他方法。