BriefGPT.xyz
Feb, 2016
大规模多语言词向量
Massively Multilingual Word Embeddings
HTML
PDF
Waleed Ammar, George Mulcaire, Yulia Tsvetkov, Guillaume Lample, Chris Dyer...
TL;DR
介绍了使用多语言字典和单语料库,无需平行数据,估计和评估50多种语言的单个共享嵌入空间中单词的新方法。新的评估方法multiQVEC-CCA展现出对两个下游任务(文本分类和解析)的更好的相关性。同时开展了为该领域进一步研究所设计的网页门户和所有方法的开源发行。
Abstract
We introduce new methods for estimating and evaluating embeddings of words from dozens of
languages
in a single shared
embedding
space. Our estimation methods,
→