BriefGPT.xyz
Ask
alpha
关键词
spanish crawling corpus
搜索结果 - 1
esCorpius: 一份庞大的西班牙语爬虫语料库
通过使用多达 1 PB 的 Common Crawl 数据,我们提出了 esCorpius,一个高质量的西班牙网络爬取语料库,利用了新颖的高度并行的清理管道和多种去重机制,以确保文档和段落边界的完整性,并遵守欧盟法规。
PDF
2 years ago
Prev
Next