Word2Bits - 量化词向量
本研究提出一种混合精度量化策略,将 Transformer 权重表示为极低位数(例如小于 3 位),该压缩策略使得在设备上实现高效的神经机器翻译变得可行,实现了模型大小 11.8 倍的减小,内存占用减少 8.3 倍,速度提高 3.5 倍,同时 BLEU 低于 - 0.5。
Sep, 2020
本文介绍了使用启发式方法来存储词语嵌入矩阵的两种相关方法,即 word2ket 和 word2ketXS,从而在实现高效的训练和推理时实现了存储词向量所需空间的百倍或更大的减少,并且在自然语言处理任务中实现了几乎不降低精度的结果。
Nov, 2019
本文提出一种基于自编码器的方法将实值的词向量转化为二进制向量,从而在减小空间占用的同时只损失了 2% 的精度。实验结果表明,使用这些二进制向量比使用实值向量快 30 倍。
Mar, 2018
该研究使用 1 位量化来减少高度期望的低精度模型的存储和计算开销,并通过引入一种 1 位量化感知训练框架 OneBit 以及基于矩阵分解的参数初始化方法来实现良好的性能(至少达到非量化性能的 83%)。
Feb, 2024
本文研究在推荐系统中使用连续表示的实体进行后训练四位量化,提出了基于行均匀量化和基于码本量化的量化方法,这些方法在减少精度降级方面均优于现有的量化方法,作者在 Facebook 的生产模型中应用了均匀量化技术并表明该技术可以将模型尺寸压缩到单精度版本的只有 13.89% 的大小,而模型质量保持不变。
Nov, 2019
提出了两种新的单词向量表示模型,通过神经网络计算大型数据集中单词的连续向量表示,相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高,此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。
Jan, 2013
该论文提出了一种使用少量基向量构建嵌入式编码、使用 Gumbel-softmax 技巧直接学习离散码表的自然语言处理模型压缩方法,并在情感分析和机器翻译任务中实现了 98% 的压缩率,从而达到在不影响性能的前提下减少内存占用的目的,该方法不需要改变网络结构且具有语言无关性。
Nov, 2017
本研究提出每个张量维度内小向量的单独比例因子缩放技术以降低量化相关的精度损失,有效提高了卷积神经网络的推理准确性并在深度学习加速器硬件设计上实现了硬件效率的提高和能源消耗的降低。
Feb, 2021
我们对语音表示学习模型应用最近的量化技术,并在 SUPERB 基准测试上进行评估。与 DistillHuBERT 相比,在 ASR 任务上,2 比特配置的存储更小,字错率更低,估计的运行时间更高效。
Dec, 2022