压缩词嵌入

ICLRNov, 2015

Compressing Word Embeddings

Martin Andrews

TL;DR该论文研究了使用词向量空间中的哈希技术压缩向量表达的内部结构对嵌入式表示存储优化的影响，同时探讨了二元分解对于嵌入式表示的可解释性的提高。

Abstract

Recent methods for learning vector space representations of words have succeeded in capturing fine-grained semantic and syntactic regularities using vector arithmetic. However, these vector space representations

vector space representations word-analogy tests memory usage binary factorisation interpretability

发现论文，激发创造

大规模可学习向量存储压缩的实验分析

我们对嵌入向量的压缩进行了全面的比较分析和实验评估，引入了一个新的分类法，并开发了一个模块化基准测试框架，评估了 14 种代表性方法，从而为不同内存预算下的使用情形推荐了最佳方法。此外，我们的研究还揭示了当前方法的局限性，并提出了未来研究的潜在方向。

Nov, 2023

词嵌入的几乎无损二值化

本文提出一种基于自编码器的方法将实值的词向量转化为二进制向量，从而在减小空间占用的同时只损失了 2% 的精度。实验结果表明，使用这些二进制向量比使用实值向量快 30 倍。

Mar, 2018

现有词嵌入方法的全面实证评估

本文通过对现有单词嵌入方法的特点和分类任务的分析，将单词嵌入方法划分为传统方法和基于神经网络的方法，揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。

Mar, 2023

向量空间中单词表示的高效估计

提出了两种新的单词向量表示模型，通过神经网络计算大型数据集中单词的连续向量表示，相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高，此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。

Jan, 2013

深度组合编码学习压缩词向量

该论文提出了一种使用少量基向量构建嵌入式编码、使用 Gumbel-softmax 技巧直接学习离散码表的自然语言处理模型压缩方法，并在情感分析和机器翻译任务中实现了 98% 的压缩率，从而达到在不影响性能的前提下减少内存占用的目的，该方法不需要改变网络结构且具有语言无关性。

Nov, 2017

通过稀疏词表示压缩神经语言模型

本文提出使用稀疏单词表示来压缩神经语言模型的参数量，以减少计算资源需求并提高性能表现。

Oct, 2016

不包含类比测试的类比研究：衡量词嵌入中的规律性

本文通过分解和实证分析经典算数词类比测试，提出了两种新的指标，用于解决标准测试存在的问题，并区分广泛类别内二元词汇之间的相似方向和正确匹配词对之间存在常规变换的配对一致性；结果表明，尽管标准的词类比测试存在缺陷，但一些受欢迎的词嵌入方法仍然编码语言规律。

Oct, 2020

word2ket：基于量子纠缠的空间高效词向量表示

本文介绍了使用启发式方法来存储词语嵌入矩阵的两种相关方法，即 word2ket 和 word2ketXS，从而在实现高效的训练和推理时实现了存储词向量所需空间的百倍或更大的减少，并且在自然语言处理任务中实现了几乎不降低精度的结果。

Nov, 2019

基于子空间嵌入的轻量级神经语言模型适应

我们提出了一种新的紧凑嵌入结构，通过对预训练语言模型中的标记之间的上下文关系进行一组子空间嵌入和分配过程，来减少预训练语言模型的内存占用，牺牲高达 4% 的绝对准确率。我们的实验结果表明，子空间嵌入在 XNLI 和 GLUE 基准套件上与原始嵌入相比，达到了超过 99.8% 的压缩率。

Aug, 2023

稀疏过完备词向量表示

提出一种将词向量转换成稀疏（可选二进制）向量的方法，使得词向量更接近于自然语言处理中常用的可解释特征，但这些特征是从原始语料库中自动发现的，并且在基准任务上优于原始向量。

Jun, 2015