BriefGPT.xyz
Ask
alpha
关键词
common crawl corpus
搜索结果 - 3
在 Common Crawl 语料库中量化地理空间
分析大型语言模型对 Common Crawl 数据集的地理空间数据的利用率,发现 1/5 至 1/6 的文档中包含有经纬度和街道地址等地理空间信息,为进一步研究有关地理空间内容对大型语言模型的影响提供了定量的见解。
PDF
a month ago
EMNLP
CCAligned:大规模跨语言网页文档对集合
利用 URL 标签指导对网络文章进行跨语言文档对齐,构建了一个大规模的网络文档数据集,使用该数据集通过基线模型进行文本内容的对齐,最终通过挖掘平行语句和测量基于挖掘数据训练的模型的机器翻译质量来证明了数据集的价值,旨在促进跨语言 NLP 研
→
PDF
5 years ago
探索性分析大容量网络语料库
本研究使用 MapReduce 对 Common Crawl Corpus 进行了初步分析,总结出语言分布和 HTML 版本是该数据集中尚未被研究的网页特征之一。
PDF
10 years ago
Prev
Next