Apr, 2023

从 Web 爬虫数据构建高质量视觉丰富文档的语料库

TL;DR提出一种高效管道,通过使用 Common Crawl 在因特网上创建大规模、多语种的 PDF 文件语料库,有助于语言模型的预训练。数据集和工具为研究者提供了开发更好的多语言语言模型的机会。