Nov, 2022

从复杂文档中提取结构化信息的基准测试

TL;DR本文提出一个名为 VRDU 的用于评价文档中网络结构、多样的数据类型以及丰富的模板和布局等不同因素综合作用的数据集,并在此基础上设计实验模型,评估文档中结构化数据提取的性能。作者发现,此类任务中面对新模板挑战较大,而针对该问题,本文也提出了一种 few-shot learning 的方法。