用哈希嵌入提高词表示的效率
这篇论文介绍了关于 spaCy 中 hash embeddings 的技术和方法,它使用分布式符号表示技术来减少大型词汇的内存占用,同时在不同领域和语言上测试证明了其 Named Entity Recognition 的性能。
Dec, 2022
本研究总结了最近的构建定长、密集、分布式单词表示的主要策略,并阐述了这些表示通常被称为单词嵌入,并除了编码出色的句法和语义信息之外,还被证明在许多下游自然语言处理任务中有用的额外特征。
Jan, 2019
本文提倡使用基于密度的分布嵌入方法,并提出了一种在高斯分布空间中学习表示的方法,以更好地捕捉有关表示和其关系的不确定性,自然地表达不对称性,并使决策边界参数更有表达力。本文比较了各种单词嵌入基准测试的性能,调查了这些嵌入模型主导和其他不对称关系的能力,并探索了表示的新颖特性。
Dec, 2014
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
本文介绍了使用启发式方法来存储词语嵌入矩阵的两种相关方法,即 word2ket 和 word2ketXS,从而在实现高效的训练和推理时实现了存储词向量所需空间的百倍或更大的减少,并且在自然语言处理任务中实现了几乎不降低精度的结果。
Nov, 2019
基于一种概率模型,研究了嵌入学习在离散数据中的可学习性,并提出了一种用于估计的低秩近似消息传递方法,探讨了样本数量、词项频率和嵌入相关性对概率分布的影响。通过对合成数据和真实文本数据的模拟验证了理论研究的可行性。
Dec, 2023
本论文提出了一种新的基于 Hash 技术的预训练模型 HashFormers,该模型可以在不使用 embedding matrices 的情况下支持无限词汇量,具有内存效率更高的优点,并在多个文本分类任务中达到了可比较的预测性能。
Oct, 2022
提出了两种新的单词向量表示模型,通过神经网络计算大型数据集中单词的连续向量表示,相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高,此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。
Jan, 2013