用哈希嵌入提高词表示的效率

Sep, 2017

Hash Embeddings for Efficient Word Representations

Dan Svenstrup, Jonas Meinertz Hansen, Ole Winther

TL;DR介绍了一种名为哈希嵌入的词向量表示方法，用于大规模词汇表和各种任务，通过哈希函数实现形如标准和随机哈希嵌入的加权插值，可有效降低嵌入层参数量且不需要预处理词典。实验证明，哈希嵌入不会使模型性能下降且能显著减少计算量。

Abstract

We present hash embeddings, an efficient method for representing words in a continuous vector form. A hash embedding may be seen as an interpolation between a standard word embedding and a →

hash embeddings word embedding random hash function huge vocabularies model performance

发现论文，激发创造

spaCy 中的多哈希嵌入

这篇论文介绍了关于 spaCy 中 hash embeddings 的技术和方法，它使用分布式符号表示技术来减少大型词汇的内存占用，同时在不同领域和语言上测试证明了其 Named Entity Recognition 的性能。

Dec, 2022

词向量：一份调查报告

本研究总结了最近的构建定长、密集、分布式单词表示的主要策略，并阐述了这些表示通常被称为单词嵌入，并除了编码出色的句法和语义信息之外，还被证明在许多下游自然语言处理任务中有用的额外特征。

Jan, 2019

高斯嵌入的词表示

本文提倡使用基于密度的分布嵌入方法，并提出了一种在高斯分布空间中学习表示的方法，以更好地捕捉有关表示和其关系的不确定性，自然地表达不对称性，并使决策边界参数更有表达力。本文比较了各种单词嵌入基准测试的性能，调查了这些嵌入模型主导和其他不对称关系的能力，并探索了表示的新颖特性。

Dec, 2014

压缩词嵌入

该论文研究了使用词向量空间中的哈希技术压缩向量表达的内部结构对嵌入式表示存储优化的影响，同时探讨了二元分解对于嵌入式表示的可解释性的提高。

Nov, 2015

现有词嵌入方法的全面实证评估

本文通过对现有单词嵌入方法的特点和分类任务的分析，将单词嵌入方法划分为传统方法和基于神经网络的方法，揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。

Mar, 2023

word2ket：基于量子纠缠的空间高效词向量表示

本文介绍了使用启发式方法来存储词语嵌入矩阵的两种相关方法，即 word2ket 和 word2ketXS，从而在实现高效的训练和推理时实现了存储词向量所需空间的百倍或更大的减少，并且在自然语言处理任务中实现了几乎不降低精度的结果。

Nov, 2019

高维度中的嵌入向量估计

基于一种概率模型，研究了嵌入学习在离散数据中的可学习性，并提出了一种用于估计的低秩近似消息传递方法，探讨了样本数量、词项频率和嵌入相关性对概率分布的影响。通过对合成数据和真实文本数据的模拟验证了理论研究的可行性。

Dec, 2023

HashFormers：面向独立于词汇表的预训练 Transformer

本论文提出了一种新的基于 Hash 技术的预训练模型 HashFormers，该模型可以在不使用 embedding matrices 的情况下支持无限词汇量，具有内存效率更高的优点，并在多个文本分类任务中达到了可比较的预测性能。

Oct, 2022

向量空间中单词表示的高效估计

提出了两种新的单词向量表示模型，通过神经网络计算大型数据集中单词的连续向量表示，相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高，此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。

Jan, 2013

探索词语和关系的理论表示

该研究提出了一种理论方法，将词嵌入和知识图谱中的实体及其关系的几何形状联系起来，以便更好地理解它们的语义结构和性能。

Feb, 2022