Jun, 2024

Fetch-A-Set:一个大规模的无 OCR 历史文档检索基准

TL;DR这篇论文介绍了 Fetch-A-Set(FAS),它是为历史文献分析系统量身定制的综合基准,解决了历史背景下的大规模文档检索的挑战。该基准包括一个庞大的文档存储库,追溯到 17 世纪,既可以作为培训资源,也可以作为检索系统的评估基准。它填补了现有文献中的一个关键空白,侧重于文化遗产领域内的复杂提取任务。该基准解决了历史文献分析的多方面问题,包括用于查询的文本到图像检索以及从文档片段中提取图像到文本主题,同时适应不同程度的文档可读性。该基准旨在推动该领域的进步,为开发和评估稳健的历史文档检索系统提供基准和数据,特别是在具有广泛历史背景的场景中。