本文介绍了一种方法,通过使用来自于维基百科和共同抓取项目的大型数据,并针对 157 种语言训练高质量的词向量。此外,我们还推出了三个新的单词类比数据集,以评估这些词向量。最后,我们针对 10 种有评估数据集存在的语言对我们的预训练词向量进行了评估,显示出与以前模型相比非常强的性能。
Feb, 2018
使用多种语言 Wikipedia 来为 100 多种语言训练单词嵌入表示,并将其应用在词性标注中取得了与英语、丹麦语和瑞典语接近最新成果的表现。此外,通过单词分组的距离等方式,进一步研究了这些嵌入所捕获的语义特征,并将这些嵌入公开以帮助多语言应用的开发和增强.
Jul, 2013
提出了两种新的单词向量表示模型,通过神经网络计算大型数据集中单词的连续向量表示,相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高,此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。
Jan, 2013
本文介绍了一种新型的深层上下文词表示方法,既能够建模单词用法的复杂特征 (如句法和语义),又能够建模这些用法在语言上下文中的变化 (即建模多义性),这些表示可以轻松地添加到现有模型中,并且可以显著提高 NLP 问题的性能。
该研究介绍了一种从手工构造的语言资源(如 WordNet、FrameNet 等)中构建解释性词向量的方法,这些向量是二进制的(即仅包含 0 和 1),且稀疏率达到 99.9%。该方法在词向量分布模型的最新评估方法上表现良好,竞争力强。
Jun, 2015
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
本文关注于从多个预训练的监督模型中提取表示,以丰富单词嵌入具有任务和领域特定的知识,实验表明这样的监督嵌入对于低资源情况有所帮助,但对于任务和领域的性质不同的扩展程度不同,而我们公开了我们的代码。
Jun, 2019
这篇论文介绍了自然语言处理领域的一个分支 —— 词向量,它们的产生、作用、历史发展以及现今面对的挑战,同时讨论了最新的研究成果 —— 上下文词向量。
Feb, 2019
本文介绍了一种基于分布式并行训练的新型 Word2vec 算法,可以有效训练具有数亿个单词的大词汇量语料库的词向量表示,而不需要大量数据传输或单个服务器的存储。经实验证明,在 Gemini 广告投放平台实践中取得了显著的业务贡献。
Jun, 2016
本文提出一种基于 skip-gram 模型的新方法,其中每个单词被表示为一组字符 n-grams 的加和。该方法快速、可在大型语料库上快速训练模型,同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示,通过与最近提出的形态单词表示进行比较,我们发现我们的向量在这些任务上达到了最先进的性能。
Jul, 2016