基于语义概念嵌入的文本相似度估计
提出通过对比学习策略来改进概念嵌入的语义表示方法,使用全新的 contextualized vectors 代替传统平均表示方法,可优化概念嵌入中的语义属性,使得使用该方法后的概念嵌入能在预测语义属性上显著突出于传统概念嵌入方法,尤其是使用 ConceptNet 的方法的效果最佳。
May, 2023
本研究探讨了在文本分割算法中应用语义单词嵌入的方法,包括 C99 分割算法和灵感来自分布式单词向量表示的新算法,并通过开发一个用于讨论一类分割目标的通用框架,研究了贪婪与精确优化方法的有效性,建议了一种新的迭代改进技术来提高贪婪策略的性能,将结果与已知基准进行比较并演示了我们的内容向量分割(CVS)在 Choi 测试集上的未经训练方法的最先进性能。最后,我们将分割过程应用于从 arXiv.org 数据库中提取的学术文献的野外数据集。
Mar, 2015
本文提出了一种集成方法,通过将 GloVe 和 word2vec 的嵌入方式与语义网络 ConceptNet 和 PPDB 的结构化知识相结合,将它们的信息融合成一个具有大型多语言词汇的共同表示,并达到了许多词语相似性评估的最先进性能
Apr, 2016
本文提出了 AspectCSE,一种基于对比学习的以方面为基础的句子嵌入方法,并在多个方面的信息检索任务上实现了 3.97%的平均改进。同时,作者还提出使用 Wikidata 知识图谱属性来训练多方面的句子嵌入模型,并证明这种方法优于单方面的嵌入,同时该研究还探讨了基于方面的句子嵌入空间。
Jul, 2023
我们开发了一种简单而有效的方法来学习单词意义嵌入。通过聚类相关单词的自我网络,我们的方法可以从现有的单词嵌入中引出一种意义库,并通过学习的意义向量标记上下文中的单词,从而产生了下游应用。实验表明,我们的方法的性能与最先进的无监督 WSD 系统相当。
Aug, 2017
该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构,并引入了一个新的数据集(SEMCAT),其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法,这是一种实用的替代方法,不需要人为干预。
Nov, 2017
本文提出了一种新颖而简单的技术,将来自不同结构的两个大型知识库中的概念知识(Wikipedia 和 Probase)整合起来,学习概念表示,并在两个任务上评估了概念嵌入模型:类比推理和概念分类,并展示了无监督环境中用于神经语义分析的参数识别的案例研究,相对于 gazetteer 和正则表达式等繁琐易出错的方法,我们的无监督方法具有更好的泛化能力。
Jan, 2018
使用基于 ConceptNet 的知识图谱和分布式语义学,第一次在 SemEval 2017 任务 2 “多语和跨语义词相似度” 中构建高质量多语词嵌入,目前在与多种语言相关的子任务中占据第一名。
Apr, 2017
该研究探讨了一种计算模型,即词嵌入模型,通过将词表示为多维空间中的向量,从词汇共现模式中学习来自语义记忆中的常见知识,并提出了语义投影的解决方案,以检验词嵌入模型是否能够恢复多种语义特征和对象属性的上下文依赖关系。
Feb, 2018