Jun, 2023

大规模无噪声预训练下的文档实体检索

TL;DR本文提出了一种从网络上收集海量、嘈杂、弱标注数据的方法,以弥补许多 VDER 设置中训练数据不足的缺陷,也给出了一个名为 DocuNet 的收集数据集,它不需要依赖特定文档类型或实体集,从而在各种 VDER 任务中通用应用。借助 DocuNet,我们提出了一种轻量级多模态体系结构 UniFormer,在没有额外的视觉相关性的情况下从文本、布局和图像裁剪中学习统一的表征。在不同的设置中实验我们的方法并展示了在传统实体检索和少样本学习设置中,当将这个大规模数据集与 UniFormer 相结合时的改进。