利用概念邻域对语义类别建模
本研究提出一种基于向量空间嵌入的方法,通过 Wikipedia 学习实体的嵌入并将其限制在某些较低维度子空间中,以解决概念空间表示建模自动化的局限性,实验结果表明这些子空间能够作为近似的概念空间表示,其重要特征可以被建模为方向,而自然属性则往往对应于凸区域。
Feb, 2016
本研究提出了一种基于贝叶斯模型的方法,可以从背景知识中构造信息先验,将领域中的每个对象与高维欧几里得空间中的一个点相关联,并将概念表示为高斯分布,以解决对象不足时的模型建立问题。应用该模型对知识库完成任务进行预测,获得了更好的结果。
May, 2018
本研究提出了一种基于大型知识库集成结构化知识和分类法层次结构将实体和类别嵌入到语义空间的框架,使框架能够计算实体和类别之间有意义的语义相关性,以处理单词概念和多词概念,在概念分类上表现出卓越性能,并在无数据层次分类方面取得了最新的成果。
Jul, 2016
提出通过对比学习策略来改进概念嵌入的语义表示方法,使用全新的 contextualized vectors 代替传统平均表示方法,可优化概念嵌入中的语义属性,使得使用该方法后的概念嵌入能在预测语义属性上显著突出于传统概念嵌入方法,尤其是使用 ConceptNet 的方法的效果最佳。
May, 2023
大型语言模型的表示空间中如何编码语义含义是可解释性中的一个根本问题。本文研究了这一领域的两个基本问题:第一,如何表示类别概念,如 “哺乳动物”、“鸟类”、“爬行动物”、“鱼类” 等;第二,如何编码概念之间的层级关系,例如 “狗” 是 “哺乳动物” 的一种。我们通过扩展线性表示假设来回答这些问题,并发现了一个非常简单的结构:简单的类别概念被表示为单纯形,具有层级关系的概念在某种意义上是正交的,并且(作为结果)复杂的概念被表示为由单纯形的直和构成的多面体,反映了其层级结构。我们使用来自 WordNet 的数据验证了这些理论结果,在 Gemma 大型语言模型上估计了 957 个具有层级关系的概念的表示。
Jun, 2024
本文介绍了如何将分类变量映射为欧氏空间中的实体嵌入,通过在标准监督训练过程中让神经网络进行学习。实体嵌入不仅可以减少内存使用和加速神经网络,更重要的是通过将相似的值映射到嵌入空间中靠近的位置,揭示了分类变量的内在属性,并帮助神经网络在稀疏且统计学未知的数据集上更好地泛化,因此在具有许多高基数特征的数据集上尤其有用,并且可以用于可视化分类数据和数据聚类。
Apr, 2016
该研究探讨了一种计算模型,即词嵌入模型,通过将词表示为多维空间中的向量,从词汇共现模式中学习来自语义记忆中的常见知识,并提出了语义投影的解决方案,以检验词嵌入模型是否能够恢复多种语义特征和对象属性的上下文依赖关系。
Feb, 2018
本文介绍一种利用神经嵌入模型生成连续概念向量并以此聚合生成完全连续性 Bag of Concepts 表示方法的技术,用以解决目前 Bag of Concepts 表示方法低概念重合度所导致的相似度分数偏低问题,并在实验中展示了在实体语义关联度、概念分类和无数据文件分类等领域上相对于其他模型的卓越性能。
Feb, 2017