Dec, 2023
WordScape: 从 Web 爬取数据中提取多语言、视觉丰富的文档与布局注释的流程
WordScape: a Pipeline to extract multilingual, visually rich Documents
with Layout Annotations from Web Crawl Data
TL;DRWordScape是一种用于创建包含数百万页具有文档布局检测注释的跨学科、多语言语料库的新型流程。它通过解析从Web获取的Word文档的Open XML结构,提供有布局注释的文档图像和它们的文本表示,以克服多种文档理解任务中的挑战,并减少手动标注成本。