BriefGPT.xyz
Ask
alpha
关键词
common crawl project
搜索结果 - 2
ACL
CCQA:用于模型预训练的新型 Web 规模问答数据集
本文提出一种在 Common Crawl 项目的基础上,使用大规模、自然、多样化问答数据集进行领域内预训练的方法,该方法可以用于 open-domain question-answering 任务中的零样本、低资源和微调设置,展示了预训练在
→
PDF
3 years ago
为 157 种语言学习词向量
本文介绍了一种方法,通过使用来自于维基百科和共同抓取项目的大型数据,并针对 157 种语言训练高质量的词向量。此外,我们还推出了三个新的单词类比数据集,以评估这些词向量。最后,我们针对 10 种有评估数据集存在的语言对我们的预训练词向量进行
→
PDF
6 years ago
Prev
Next