Dec, 2023

WordScape: 从 Web 爬取数据中提取多语言、视觉丰富的文档与布局注释的流程

TL;DRWordScape是一种用于创建包含数百万页具有文档布局检测注释的跨学科、多语言语料库的新型流程。它通过解析从Web获取的Word文档的Open XML结构,提供有布局注释的文档图像和它们的文本表示,以克服多种文档理解任务中的挑战,并减少手动标注成本。