FULL-W2V: 在 GPU 加速系统上充分利用数据复用进行 W2V

Dec, 2023

FULL-W2V: 在 GPU 加速系统上充分利用数据复用进行 W2V

FULL-W2V: Fully Exploiting Data Reuse for W2V on GPU-Accelerated Systems

Thomas Randall, Tyler Allen, Rong Ge

TL;DR通过减少内存访问和改进时序局部性，FULL-W2V 算法在 GPU 上实现了显著的性能提升，并且对 NLP 和其他领域的应用具有潜在的益处。

Abstract

word2vec remains one of the highly-impactful innovations in the field of natural language processing (NLP) that represents latent grammatical and syntactical information in human text with dense vectors in a low

word2vec natural language processing gpu memory access performance improvement

发现论文，激发创造

共享和分布式内存中的 Word2Vec 并行化

本文介绍了一种对 Word2Vec 算法的优化，包括使用小批量处理方法和分布式计算，实现了该算法在多核 CPU 上的线性速度提升和语料处理速度的大幅提高。

Apr, 2016

Word2Vec 的高效并行学习

提出了一种缓存策略，用于 Word2Vec 和其变种的并行学习，以提高其效率，并在降低准确性方面对多线程并行学习中的内存更新冲突进行了探讨。

Jun, 2016

在多核和众核架构中并行化 Word2Vec

本文提出了一种名为 HogBatch 的算法，在多核 CPU 框架下利用小批量与负样本共享，更好地重复利用算法中的各种数据结构，并使用矩阵乘法操作来优化模型，同时探索了将 Word2vec 计算分布到计算集群中的不同技术，表现出良好的强可扩展性，被认为是目前最快的 Word2vec 实现方法。

Nov, 2016

大词汇量网络高效分布式 Word2vec 训练系统

本文介绍了一种基于分布式并行训练的新型 Word2vec 算法，可以有效训练具有数亿个单词的大词汇量语料库的词向量表示，而不需要大量数据传输或单个服务器的存储。经实验证明，在 Gemini 广告投放平台实践中取得了显著的业务贡献。

Jun, 2016

Word2Bits - 量化词向量

使用 1-2 位每个参数的量化函数学习高质量的量化词向量，该函数还可作为正则化器，从而在 word similarity 和 question answering 任务中取得更好的效果，并且占用的内存和存储空间显著减小。

Mar, 2018

word2ket：基于量子纠缠的空间高效词向量表示

本文介绍了使用启发式方法来存储词语嵌入矩阵的两种相关方法，即 word2ket 和 word2ketXS，从而在实现高效的训练和推理时实现了存储词向量所需空间的百倍或更大的减少，并且在自然语言处理任务中实现了几乎不降低精度的结果。

Nov, 2019

基于 GPU 的聚类快速词汇投影法用于多语机器翻译

本文提出了一种通过聚类实现快速词汇投影的方法，以用于 GPU 上的多语言 transformers，结果显示在保持 BLEU 得分的同时，在浮点 GPU 推理速度上最高可提高 25％，并最高可提高 2.6 倍的词汇投影速度。

Aug, 2022

向量空间中单词表示的高效估计

提出了两种新的单词向量表示模型，通过神经网络计算大型数据集中单词的连续向量表示，相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高，此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。

Jan, 2013

企业用语的含义及其附近的其他事物

该研究使用分析模型从传统理论中探究自然语言处理系统的统计学习方法，并在此基础上导出了有关使用这些算法和共现数据的系统的见解，进一步揭示了 Word2Vec 算法的潜力和其中的偏差，同时分析了共现模型中的统计依赖密度，并且发现了分布假设的部分实现。

Apr, 2022

Word-Graph2vec: 基于随机游走采样的单词共现图的高效单词嵌入方法

提出了一种基于图形的单词嵌入算法 Word-Graph2vec，通过将大语料库转换为单词共现图然后从该图中随机抽取单词序列样本并在此抽样语料库上训练单词嵌入，在实验中表现出较高的效率并且随着训练语料的增加，其性能优势变得越来越明显。

Jan, 2023