word2vec 参数学习解析

Nov, 2014

word2vec Parameter Learning Explained

Xin Rong

TL;DR本文详细解释了 word2vec 模型的参数学习过程，包括 CBOW、skip-gram 等模型及优化技术，并提供了直观的梯度方程解释和数学推导，同时提供了神经网络和反向传播基础的回顾。

Abstract

The word2vec model and application by Mikolov et al. have attracted a great amount of attention in recent two years. The vector representations of words learned by word2vec models have been shown to carry semanti

word2vec nlp neural networks cbow skip-gram

发现论文，激发创造

word2vec 解释：从 Mikolov 等人的负采样词嵌入方法中推导

本文旨在解释 Tomas Mikolov 等人在论文 “Distributed Representations of Words and Phrases and their Compositionality” 中的第四个方程（负采样），该论文解释了 word2vec 软件的学习模型及其最新的词嵌入技术。

Feb, 2014

贝叶斯神经词嵌入

本文介绍了一种基于可扩展的贝叶斯神经词嵌入算法，该算法依赖于 Skip-Gram 目标的变分贝叶斯解决方案，并提供了详细的步骤描述。我们在六个不同的数据集上展示实验结果，说明该算法在词类比和相似性任务上的表现与原始 Skip-Gram 方法相当。

Mar, 2016

企业用语的含义及其附近的其他事物

该研究使用分析模型从传统理论中探究自然语言处理系统的统计学习方法，并在此基础上导出了有关使用这些算法和共现数据的系统的见解，进一步揭示了 Word2Vec 算法的潜力和其中的偏差，同时分析了共现模型中的统计依赖密度，并且发现了分布假设的部分实现。

Apr, 2022

使用子词信息丰富单词向量

本文提出一种基于 skip-gram 模型的新方法，其中每个单词被表示为一组字符 n-grams 的加和。该方法快速、可在大型语料库上快速训练模型，同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示，通过与最近提出的形态单词表示进行比较，我们发现我们的向量在这些任务上达到了最先进的性能。

Jul, 2016

高风险学习：从微小数据中获取新单词向量

本论文研究了分布式语义模型与小样本数据的问题，并展示了如何使用神经语言模型 Word2Vec，通过以前学习语义空间的背景知识，仅对其标准体系结构进行微小修改，以从微小数据中学习新术语，并在单词定义任务和少量上下文的例子任务中，相较于最先进的模型，呈现出大幅增长的性能。

Jul, 2017

贝叶斯段落向量

本文提出了一种基于神经网络的段落向量的新解释，基于概率论的方法可以通过后验不确定性来在监督学习任务中提升性能，进一步提高了段落向量的研究应用。

Nov, 2017

大规模推荐系统中的 Word2vec 调优

本文描述了 Word2vec 算法在推荐系统中的应用和默认参数的问题，并通过 hyperparameter optimization 的方法，大幅提高了推荐命中率，在 Twitter Who To Follow 推荐中还成功提高了 15％关注率。

Sep, 2020

探索词语和关系的理论表示

该研究提出了一种理论方法，将词嵌入和知识图谱中的实体及其关系的几何形状联系起来，以便更好地理解它们的语义结构和性能。

Feb, 2022

GloVe 与 word2vec 的链接

本文讨论了 GloVe 和 skip-gram 两种单词向量表示方法在训练目标上的相似性，指出它们的目标与代价函数虽不同但具有类似性。

Nov, 2014

词语和短语的分布式表示及其组合性

本文介绍了连续 Skip-gram 模型的扩展方法，包括减少常见词的子采样、负采样优化、短语学习等，以提高单词向量的质量和训练速度，为解决单词顺序和习惯用语表示上的问题提供了简单的解决方法。

Oct, 2013