BriefGPT.xyz
大模型
Ask
alpha
关键词
chinese clean texts
搜索结果 - 1
基于有效评估模型提取的大规模高质量中文网络文本
我们提出了 EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText,其中包含 1.42 TB 的文本,并为每
→
PDF
8 months ago
Prev
Next