共享和分布式内存中的 Word2Vec 并行化

Apr, 2016

共享和分布式内存中的 Word2Vec 并行化

Parallelizing Word2Vec in Shared and Distributed Memory

Shihao Ji, Nadathur Satish, Sheng Li, Pradeep Dubey

TL;DR本文介绍了一种对 Word2Vec 算法的优化，包括使用小批量处理方法和分布式计算，实现了该算法在多核 CPU 上的线性速度提升和语料处理速度的大幅提高。

Abstract

word2vec is a widely used algorithm for extracting low-dimensional vector representations of words. It generated considerable excitement in the machine learning and natural language processing (→

word2vec nlp algorithm vector representations parallelization

发现论文，激发创造

在多核和众核架构中并行化 Word2Vec

本文提出了一种名为 HogBatch 的算法，在多核 CPU 框架下利用小批量与负样本共享，更好地重复利用算法中的各种数据结构，并使用矩阵乘法操作来优化模型，同时探索了将 Word2vec 计算分布到计算集群中的不同技术，表现出良好的强可扩展性，被认为是目前最快的 Word2vec 实现方法。

Nov, 2016

Word2Vec 的高效并行学习

提出了一种缓存策略，用于 Word2Vec 和其变种的并行学习，以提高其效率，并在降低准确性方面对多线程并行学习中的内存更新冲突进行了探讨。

Jun, 2016

大词汇量网络高效分布式 Word2vec 训练系统

本文介绍了一种基于分布式并行训练的新型 Word2vec 算法，可以有效训练具有数亿个单词的大词汇量语料库的词向量表示，而不需要大量数据传输或单个服务器的存储。经实验证明，在 Gemini 广告投放平台实践中取得了显著的业务贡献。

Jun, 2016

FULL-W2V: 在 GPU 加速系统上充分利用数据复用进行 W2V

通过减少内存访问和改进时序局部性，FULL-W2V 算法在 GPU 上实现了显著的性能提升，并且对 NLP 和其他领域的应用具有潜在的益处。

Dec, 2023

向量空间中单词表示的高效估计

提出了两种新的单词向量表示模型，通过神经网络计算大型数据集中单词的连续向量表示，相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高，此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。

Jan, 2013

为 157 种语言学习词向量

本文介绍了一种方法，通过使用来自于维基百科和共同抓取项目的大型数据，并针对 157 种语言训练高质量的词向量。此外，我们还推出了三个新的单词类比数据集，以评估这些词向量。最后，我们针对 10 种有评估数据集存在的语言对我们的预训练词向量进行了评估，显示出与以前模型相比非常强的性能。

Feb, 2018

贝叶斯段落向量

本文提出了一种基于神经网络的段落向量的新解释，基于概率论的方法可以通过后验不确定性来在监督学习任务中提升性能，进一步提高了段落向量的研究应用。

Nov, 2017

大型文本语料库单词嵌入的异步训练

本文提出了一种可扩展的词向量训练方法，通过将输入空间进行分区来缩放到大规模文本语料库，同时不牺牲向量的性能，并在各种 NLP 基准测试中实现了可比较的甚至高达 45％的性能改进。

Dec, 2018

Top2Vec：主题的分布式表示

提出了一种基于分布式语义嵌入的主题建模方法 top2vec，不需要预定义的停用词表、词干提取或词形还原等预处理，能够自动确定主题数目，有效地提取语义信息并以主题向量的形式呈现。实验结果表明，top2vec 比传统的生成模型更加优秀。

Aug, 2020

分布式词表示的预训练技术进展

本文着重讨论了如何通过使用已知技巧来训练高质量的单词向量表示，以提高自然语言处理任务的表现，并提供了一组公开可用的预训练模型，能在多项任务上远远优于现有技术。

Dec, 2017