词嵌入的几乎无损二值化

AAAIMar, 2018

Near-lossless Binarization of Word Embeddings

Julien Tissier, Christophe Gravier, Amaury Habrard

TL;DR本文提出一种基于自编码器的方法将实值的词向量转化为二进制向量，从而在减小空间占用的同时只损失了 2% 的精度。实验结果表明，使用这些二进制向量比使用实值向量快 30 倍。

Abstract

word embeddings are commonly used as a starting point in many NLP models to achieve state-of-the-art performances. However, with a large vocabulary and many dimensions, these floating-point representations are expensive both in terms of memory and calculations which makes them unsuitab

word embeddings binary embeddings autoencoder semantic similarity vector size

发现论文，激发创造

学习压缩句子表示，用于设备端文本处理

本文提出了四种连续和通用句子嵌入二值化方法，并评估了它们在多种下游任务中的表现，发现二值化句子嵌入相对于连续嵌入仅降低了约 2％的性能，同时减少了 98％的存储需求，而学习到的二进制表示形式可以通过简单计算其汉明距离来评估两个句子之间的语义相关性，这比计算连续嵌入之间的内积更加计算高效。

Jun, 2019

压缩词嵌入

该论文研究了使用词向量空间中的哈希技术压缩向量表达的内部结构对嵌入式表示存储优化的影响，同时探讨了二元分解对于嵌入式表示的可解释性的提高。

Nov, 2015

图的伯努利嵌入

通过将图表数据的嵌入视为不同偏置下的独立硬币翻转，应用持续优化技术来获得二元向量的简单且有效模型，得出了优于谱图嵌入和各种学习实值嵌入的量化结果，可以显著降低图表数据检索的延迟。

Mar, 2018

深度组合编码学习压缩词向量

该论文提出了一种使用少量基向量构建嵌入式编码、使用 Gumbel-softmax 技巧直接学习离散码表的自然语言处理模型压缩方法，并在情感分析和机器翻译任务中实现了 98% 的压缩率，从而达到在不影响性能的前提下减少内存占用的目的，该方法不需要改变网络结构且具有语言无关性。

Nov, 2017

Word2Bits - 量化词向量

使用 1-2 位每个参数的量化函数学习高质量的量化词向量，该函数还可作为正则化器，从而在 word similarity 和 question answering 任务中取得更好的效果，并且占用的内存和存储空间显著减小。

Mar, 2018

二进制段落向量

本文介绍了 Binary Paragraph Vector 模型，它是一种使用简单的神经网络生成高效信息检索的短二进制编码。我们发现，Binary Paragraph Vector 在使用更少的位数时优于自编码二进制编码，并在转移学习场景中评估它们的精度，结果表明，二元段向量可以捕获与各个特定领域相关的语义。最后，我们提出了一种同时学习短二进制码和长实数表示的模型，可用于在大型文档集合中快速检索高度相关的文档。

Nov, 2016

BiBERT：准确的全二值化 BERT

本文提出了一种全二值化 BERT（BiBERT）模型，通过有效的双向 attention 结构来最大化表示信息的统计信息，并引入方向匹配蒸馏方案在 BERT 全二值化后准确优化，证明了比现有量化 BERT 性能更好，在计算资源有限的情况下可以显着节省 FLOPs（56.3 倍）和模型大小（31.2 倍）。

Mar, 2022

基于二值化神经网络的端到端文本分类

本文提出了一种用于意图分类任务的端到端二值化神经网络架构，包括对输入和分类器的二值化。实验结果表明，该架构在三个数据集上实现了具有可比性的结果，并且使用的内存和训练时间相对较少，可以适用于受限的设备。

Oct, 2020

二值化图神经网络

本研究提出了一种基于二值网络参数的二值图神经网络模型，将其与现有的图嵌入方法相结合，可以提高模型效率和可扩展性，同时与当前最优性能相匹配。

Apr, 2020

深度学习中文本数据的向量表示

本文研究了稠密分布式文本数据表示的两种新型神经模型：一种用于学习文档级表示，另一种用于学习词级表示。我们提出的模型分别在信息检索和语义关系识别等任务中优于现有方法，并且直接从原始文本数据中学习嵌入。其中，词级表示模型不同于以往的模型，可以用梯度下降算法进行训练。

Jan, 2019