本文介绍了一种对 Word2Vec 算法的优化,包括使用小批量处理方法和分布式计算,实现了该算法在多核 CPU 上的线性速度提升和语料处理速度的大幅提高。
Apr, 2016
提出了一种缓存策略,用于 Word2Vec 和其变种的并行学习,以提高其效率,并在降低准确性方面对多线程并行学习中的内存更新冲突进行了探讨。
Jun, 2016
本文提出了一种名为 HogBatch 的算法,在多核 CPU 框架下利用小批量与负样本共享,更好地重复利用算法中的各种数据结构,并使用矩阵乘法操作来优化模型,同时探索了将 Word2vec 计算分布到计算集群中的不同技术,表现出良好的强可扩展性,被认为是目前最快的 Word2vec 实现方法。
Nov, 2016
本文介绍了一种基于分布式并行训练的新型 Word2vec 算法,可以有效训练具有数亿个单词的大词汇量语料库的词向量表示,而不需要大量数据传输或单个服务器的存储。经实验证明,在 Gemini 广告投放平台实践中取得了显著的业务贡献。
使用 1-2 位每个参数的量化函数学习高质量的量化词向量,该函数还可作为正则化器,从而在 word similarity 和 question answering 任务中取得更好的效果,并且占用的内存和存储空间显著减小。
Mar, 2018
本文介绍了使用启发式方法来存储词语嵌入矩阵的两种相关方法,即 word2ket 和 word2ketXS,从而在实现高效的训练和推理时实现了存储词向量所需空间的百倍或更大的减少,并且在自然语言处理任务中实现了几乎不降低精度的结果。
Nov, 2019
本文提出了一种通过聚类实现快速词汇投影的方法,以用于 GPU 上的多语言 transformers,结果显示在保持 BLEU 得分的同时,在浮点 GPU 推理速度上最高可提高 25%,并最高可提高 2.6 倍的词汇投影速度。
Aug, 2022
提出了两种新的单词向量表示模型,通过神经网络计算大型数据集中单词的连续向量表示,相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高,此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。
Jan, 2013
该研究使用分析模型从传统理论中探究自然语言处理系统的统计学习方法,并在此基础上导出了有关使用这些算法和共现数据的系统的见解,进一步揭示了 Word2Vec 算法的潜力和其中的偏差,同时分析了共现模型中的统计依赖密度,并且发现了分布假设的部分实现。
Apr, 2022
提出了一种基于图形的单词嵌入算法 Word-Graph2vec,通过将大语料库转换为单词共现图然后从该图中随机抽取单词序列样本并在此抽样语料库上训练单词嵌入,在实验中表现出较高的效率并且随着训练语料的增加,其性能优势变得越来越明显。
Jan, 2023