Apr, 2023

SIMARA:从完整网页中提取键值信息的数据库

TL;DR提出一个包含 5,393 份手写历史文档的信息提取新数据库,其中手写的 finding aid 包含了从 18-20 世纪的六个系列的元数据,每个文档都被页级注释,涵盖了七个检索字段。此数据集是分割自由系统信息提取研究的好机会。提出了基于 Transformer 架构的模型,用于端到端信息提取,并提供三个数据集以进行未来研究的公平比较。