通过对齐异构词汇语义空间实现未见词表示
本文提出了一种集成方法,通过将GloVe和word2vec的嵌入方式与语义网络ConceptNet和PPDB的结构化知识相结合,将它们的信息融合成一个具有大型多语言词汇的共同表示,并达到了许多词语相似性评估的最先进性能
Apr, 2016
提出一种新模型共同学习单词和语义嵌入,以解决现有方法无法区分单词不同含义的问题,利用大规模预料库和语义网络优化嵌入空间,并在各种任务中评估了该方法的优点。
Dec, 2016
本文探讨使用无监督学习的方法,通过单词嵌入在词向量空间内学习语义相似性,以实现对文本分类任务的性能优化。研究发现,使用领域特定的词嵌入可以提高分类性能。
May, 2017
本文提出一种方法学习语言的词汇,并使用图嵌入技术和跨语言向量空间映射方法结合本体源和语料库来提高现有词向量的覆盖范围以及加强其词汇知识。所提出的方法在Rare Word Similarity dataset上表现出10%的性能提升。
Jul, 2017
该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构,并引入了一个新的数据集(SEMCAT),其中包含超过6500个在110个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法,这是一种实用的替代方法,不需要人为干预。
Nov, 2017
提出了一种新模型,通过给类似语境中出现的单词重新分配其权重,模拟了在相似语境中单词之间的语义共享,并将其纳入单词袋文档表示法中,从而在无监督设置下在难度逐渐增加的数据集上获得了最好的微观和宏观F1分数,针对的研究主题是单词嵌入和语义含义。
Jun, 2019
本文介绍了一种新的技术来创建单语和跨语言的元嵌入。通过使用多种技术、文本来源、知识库和语言创建的多个单词嵌入,使用线性变换和平均值将现有单词向量投射到公共语义空间,以保持原始嵌入的维度,并通过处理词汇表外的问题而不失去信息。经过广泛的实证评估,我们的技术在各种内在和外在的多语言评估方面表现出对以前工作的有效性,并获取了在语义文本相似性方面具有竞争力的结果,并在单词相似性和词性标注方面得到了最先进的性能(英文和西班牙文)。跨语言元嵌入还表现出优秀的跨语言转移学习能力,即我们可以利用资源丰富的语言中预训练的源嵌入来改进贫乏语言的单词表示。
Jan, 2020
提出通过对比学习策略来改进概念嵌入的语义表示方法,使用全新的contextualized vectors代替传统平均表示方法,可优化概念嵌入中的语义属性,使得使用该方法后的概念嵌入能在预测语义属性上显著突出于传统概念嵌入方法,尤其是使用ConceptNet的方法的效果最佳。
May, 2023