Mar, 2024

RealKIE: 为企业关键信息提取设计的五个新数据集

TL;DRRealKIE 是一个具有五个具有挑战性数据集的基准测试,旨在推进关键信息提取方法,重点关注企业应用。这些数据集包括一系列不同类型的文档,包括 SEC S1 文件,美国保密协议,英国慈善报告,FCC 发票和资源合同。除了介绍这些数据集外,我们还提供了详细的注释过程、文档处理技术和基准建模方法的描述,以促进开发能处理实际挑战并支持研究产业特定问题的信息提取技术的进一步研究。