Feb, 2023

DocILE 文件信息定位与提取基准测试

TL;DR本文介绍了 DocILE 数据集及其应用,它包括 6.7K 个注释的商业文件、100K 个合成文件和近 1M 个未标记的文件,旨在为关键信息定位和提取以及行项目识别等任务提供基准,并提供了几个基线模型,包括 RoBERTa、LayoutLMv3 和 DETR-based Table Transformer。