该研究是关于使用基于计数的模型来提取文本的语义表征,使用 Hellinger 距离用于处理大型语料库中的单词共现统计数据,并获得了很好的性能表现。
Dec, 2014
此研究综述了分布式语义表示的理论背景,介绍了从单词级别向更精细的词义级别转化的方法,并提供了对两种主要分支进行的广泛技术概述;最终,对其重要方面进行了分析与评估。
May, 2018
本研究总结了最近的构建定长、密集、分布式单词表示的主要策略,并阐述了这些表示通常被称为单词嵌入,并除了编码出色的句法和语义信息之外,还被证明在许多下游自然语言处理任务中有用的额外特征。
Jan, 2019
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
提出了两种新的单词向量表示模型,通过神经网络计算大型数据集中单词的连续向量表示,相较于其他神经网络技术在词语相似度任务上提高了准确性且计算效率更高,此外还展示了这些向量在测量语法和语义相似度的测试集上有最先进的性能表现。
Jan, 2013
提出一种将词向量转换成稀疏(可选二进制)向量的方法,使得词向量更接近于自然语言处理中常用的可解释特征,但这些特征是从原始语料库中自动发现的,并且在基准任务上优于原始向量。
Jun, 2015
该研究介绍了一种从手工构造的语言资源(如 WordNet、FrameNet 等)中构建解释性词向量的方法,这些向量是二进制的(即仅包含 0 和 1),且稀疏率达到 99.9%。该方法在词向量分布模型的最新评估方法上表现良好,竞争力强。
该研究构建了一种基于语义词嵌入和频率信息的方法,用于捕捉短文本间的语义相似性并设计了基于权重模型和一种基于中位数损失函数的学习过程,实现得到低维度的文本表示,实验证明该方法在维基百科和 Twitter 数据上表现优异且具有较好的泛化性能。
Jul, 2016
本论文研究了分布式语义模型与小样本数据的问题,并展示了如何使用神经语言模型 Word2Vec,通过以前学习语义空间的背景知识,仅对其标准体系结构进行微小修改,以从微小数据中学习新术语,并在单词定义任务和少量上下文的例子任务中,相较于最先进的模型,呈现出大幅增长的性能。
Jul, 2017
本文提出了一种基于神经网络的段落向量的新解释,基于概率论的方法可以通过后验不确定性来在监督学习任务中提升性能,进一步提高了段落向量的研究应用。
Nov, 2017