共享和分布式内存中的 Word2Vec 并行化
本文提出了一种名为 HogBatch 的算法,在多核 CPU 框架下利用小批量与负样本共享,更好地重复利用算法中的各种数据结构,并使用矩阵乘法操作来优化模型,同时探索了将 Word2vec 计算分布到计算集群中的不同技术,表现出良好的强可扩展性,被认为是目前最快的 Word2vec 实现方法。
Nov, 2016
本文介绍了一种基于分布式并行训练的新型 Word2vec 算法,可以有效训练具有数亿个单词的大词汇量语料库的词向量表示,而不需要大量数据传输或单个服务器的存储。经实验证明,在 Gemini 广告投放平台实践中取得了显著的业务贡献。
Jun, 2016
通过减少内存访问和改进时序局部性,FULL-W2V 算法在 GPU 上实现了显著的性能提升,并且对 NLP 和其他领域的应用具有潜在的益处。
Dec, 2023
提出了两种新的单词向量表示模型,通过神经网络计算大型数据集中单词的连续向量表示,相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高,此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。
Jan, 2013
本文介绍了一种方法,通过使用来自于维基百科和共同抓取项目的大型数据,并针对 157 种语言训练高质量的词向量。此外,我们还推出了三个新的单词类比数据集,以评估这些词向量。最后,我们针对 10 种有评估数据集存在的语言对我们的预训练词向量进行了评估,显示出与以前模型相比非常强的性能。
Feb, 2018
本文提出了一种可扩展的词向量训练方法,通过将输入空间进行分区来缩放到大规模文本语料库,同时不牺牲向量的性能,并在各种 NLP 基准测试中实现了可比较的甚至高达 45%的性能改进。
Dec, 2018
提出了一种基于分布式语义嵌入的主题建模方法 top2vec,不需要预定义的停用词表、词干提取或词形还原等预处理,能够自动确定主题数目,有效地提取语义信息并以主题向量的形式呈现。实验结果表明,top2vec 比传统的生成模型更加优秀。
Aug, 2020
本文着重讨论了如何通过使用已知技巧来训练高质量的单词向量表示,以提高自然语言处理任务的表现,并提供了一组公开可用的预训练模型,能在多项任务上远远优于现有技术。
Dec, 2017