压缩词嵌入
我们对嵌入向量的压缩进行了全面的比较分析和实验评估,引入了一个新的分类法,并开发了一个模块化基准测试框架,评估了 14 种代表性方法,从而为不同内存预算下的使用情形推荐了最佳方法。此外,我们的研究还揭示了当前方法的局限性,并提出了未来研究的潜在方向。
Nov, 2023
本文提出一种基于自编码器的方法将实值的词向量转化为二进制向量,从而在减小空间占用的同时只损失了 2% 的精度。实验结果表明,使用这些二进制向量比使用实值向量快 30 倍。
Mar, 2018
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
提出了两种新的单词向量表示模型,通过神经网络计算大型数据集中单词的连续向量表示,相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高,此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。
Jan, 2013
该论文提出了一种使用少量基向量构建嵌入式编码、使用 Gumbel-softmax 技巧直接学习离散码表的自然语言处理模型压缩方法,并在情感分析和机器翻译任务中实现了 98% 的压缩率,从而达到在不影响性能的前提下减少内存占用的目的,该方法不需要改变网络结构且具有语言无关性。
Nov, 2017
本文通过分解和实证分析经典算数词类比测试,提出了两种新的指标,用于解决标准测试存在的问题,并区分广泛类别内二元词汇之间的相似方向和正确匹配词对之间存在常规变换的配对一致性;结果表明,尽管标准的词类比测试存在缺陷,但一些受欢迎的词嵌入方法仍然编码语言规律。
Oct, 2020
本文介绍了使用启发式方法来存储词语嵌入矩阵的两种相关方法,即 word2ket 和 word2ketXS,从而在实现高效的训练和推理时实现了存储词向量所需空间的百倍或更大的减少,并且在自然语言处理任务中实现了几乎不降低精度的结果。
Nov, 2019
我们提出了一种新的紧凑嵌入结构,通过对预训练语言模型中的标记之间的上下文关系进行一组子空间嵌入和分配过程,来减少预训练语言模型的内存占用,牺牲高达 4% 的绝对准确率。我们的实验结果表明,子空间嵌入在 XNLI 和 GLUE 基准套件上与原始嵌入相比,达到了超过 99.8% 的压缩率。
Aug, 2023
提出一种将词向量转换成稀疏(可选二进制)向量的方法,使得词向量更接近于自然语言处理中常用的可解释特征,但这些特征是从原始语料库中自动发现的,并且在基准任务上优于原始向量。
Jun, 2015