Apr, 2023
从 Web 爬虫数据构建高质量视觉丰富文档的语料库
CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data
Michał Turski, Tomasz Stanisławek, Karol Kaczmarek, Paweł Dyda, Filip Graliński
TL;DR提出一种高效管道,通过使用 Common Crawl 在因特网上创建大规模、多语种的 PDF 文件语料库,有助于语言模型的预训练。数据集和工具为研究者提供了开发更好的多语言语言模型的机会。