提出一种将词向量转换成稀疏(可选二进制)向量的方法,使得词向量更接近于自然语言处理中常用的可解释特征,但这些特征是从原始语料库中自动发现的,并且在基准任务上优于原始向量。
Jun, 2015
本文介绍了一种方法,通过使用来自于维基百科和共同抓取项目的大型数据,并针对 157 种语言训练高质量的词向量。此外,我们还推出了三个新的单词类比数据集,以评估这些词向量。最后,我们针对 10 种有评估数据集存在的语言对我们的预训练词向量进行了评估,显示出与以前模型相比非常强的性能。
Feb, 2018
本文检验了分布式词汇表示法是否能准确编码概念含义的所有必要方面,发现其无法准确编码概念的感知特征,导致词 - 词相似度预测误差。因此,文中提出需要注重基于经验和实体的语言学习方法来弥补这些缺陷。
May, 2017
本文提出了一种基于语义词典的关系信息来改进词向量表示的方法,并在多种语言的标准词汇语义评估任务中获得了显著的改进,其方法超越了以往词向量训练算法中融入语义词典的技术。
Nov, 2014
本论文研究了分布式语义模型与小样本数据的问题,并展示了如何使用神经语言模型 Word2Vec,通过以前学习语义空间的背景知识,仅对其标准体系结构进行微小修改,以从微小数据中学习新术语,并在单词定义任务和少量上下文的例子任务中,相较于最先进的模型,呈现出大幅增长的性能。
Jul, 2017
本文提出一种基于 skip-gram 模型的新方法,其中每个单词被表示为一组字符 n-grams 的加和。该方法快速、可在大型语料库上快速训练模型,同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示,通过与最近提出的形态单词表示进行比较,我们发现我们的向量在这些任务上达到了最先进的性能。
Jul, 2016
本文着重讨论了如何通过使用已知技巧来训练高质量的单词向量表示,以提高自然语言处理任务的表现,并提供了一组公开可用的预训练模型,能在多项任务上远远优于现有技术。
Dec, 2017
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
本文介绍了一种新型的深层上下文词表示方法,既能够建模单词用法的复杂特征 (如句法和语义),又能够建模这些用法在语言上下文中的变化 (即建模多义性),这些表示可以轻松地添加到现有模型中,并且可以显著提高 NLP 问题的性能。
本文研究了稠密分布式文本数据表示的两种新型神经模型:一种用于学习文档级表示,另一种用于学习词级表示。我们提出的模型分别在信息检索和语义关系识别等任务中优于现有方法,并且直接从原始文本数据中学习嵌入。其中,词级表示模型不同于以往的模型,可以用梯度下降算法进行训练。
Jan, 2019