BriefGPT.xyz
大模型
Ask
alpha
关键词
monolingual datasets
搜索结果 - 1
CCNet: 从网络爬取数据中提取高质量单语数据集
该论文描述了从 Common Crawl 中提取大量高质量单语数据集的自动管道,以用于各种语言的预训练文本表示,并增加了过滤步骤以选择接近于 Wikipedia 等高质量语料库的文档。
PDF
5 years ago
Prev
Next