Oct, 2017

从 CommonCrawl 构建 Web 规模的依赖解析语料库

TL;DR介绍了 DepCC,这是迄今为止最大的英文语言分析语料库,包括 365 万份文档,由 Common Crawl 项目的 2520 亿个符记和 75 亿个命名实体出现组成,可以通过一些应用程序使用,例如基于句法的词嵌入训练,信息提取和问题回答等。该语料库构建了所有句子及其语言元数据的索引,可以快速搜索整个语料库,并在动词相似性任务上证明了其效用,显示训练在我们此语料库上的分布模型比维基百科的小语料库上训练的模型的效果更好。该分布模型在 SimVerb3500 数据集上优于基于小语料库训练的动词相似性的最新模型。