Sep, 2014

探索性分析大容量网络语料库

TL;DR本研究使用 MapReduce 对 Common Crawl Corpus 进行了初步分析,总结出语言分布和 HTML 版本是该数据集中尚未被研究的网页特征之一。