通过潜在语义插补增强领域词嵌入
本文介绍了如何使用 LSI 模型从最新的知识图谱中插入诸如罕见术语、新兴术语之类的领域特定词汇向量,以生成可靠的罕见和 OOV 术语的嵌入向量。以医学为例,使用 MeSH 知识图谱来插入生成生物医学术语嵌入向量,无需重新训练即可评估所得嵌入模型的可靠性。
Oct, 2022
本文研究了使用 Latent Semantic Analysis(LSA)方法增强语言模型的预测能力,并提出并评估了几种整合 LSA 的方法,包括语义缓存,部分重新排序和插值等。与 4-gram 基线和简单缓存模型相比,我们发现所有的方法都有显著的改进,其中大部分方法有更大的改进。
Jan, 2008
该研究提出了使用知识图谱的方法来进行嵌入补全,与目前常用的向量空间属性或子词信息不同,最终在多个领域的任务上显示其可以提高单词的表示,如在 Card-660 任务中使用 GloVe 嵌入,我们的方法将 Pearson 和 Spearman 相关系数分别提高了 11% 和 17.8%。
Jun, 2019
本文提出了一种利用词典等词汇资源,采用图嵌入和跨语言向量空间转换技术,为未见过的单词诱导嵌入的方法,对多个基准测试进行了优化,表现出一致的性能提升。
Nov, 2018
知识图谱嵌入主要分为平移距离模型和语义匹配模型,在平移距离模型中,头尾实体的区分能力是一个关键挑战,而新颖的位置敏感嵌入 (LSE) 方法通过使用关系特定的映射来改变头实体,将关系概念化为线性变换,而不是简单的平移,它的理论基础、表现能力和与现有模型的联系都得到了充分的研究,一个更简化的变体 LSEd 通过对变换使用对角线矩阵以提高实际效率,在四个大规模数据集上进行的链接预测测试中,LSEd 要么表现出色,要么与领先的现代模型竞争力相当。
Dec, 2023
本文提出了一种新型的潜向量空间模型,可在无需明确注释的情况下,联合学习单词、电子商务产品的潜在表示以及两者之间的映射,能直接建模产品与特定单词之间的鉴别关系,并在学习排序库特征方面证明其性能优越性。
Aug, 2016
本文提出一种基于生成模型的元任务生成方法,称为 LAtent Space Interpolation Unsupervised Meta-learning (LASIUM),通过从潜在空间中生成分组成群的对象,构建元任务的训练和验证数据,应用于少样本分类任务中的实验表明其性能优于或与当前无监督学习基线相竞争,并且该方法不需要手工调整,扩展性高。
Jun, 2020
本文研究如何将医学语言模型(BioELMo)的结构与医学任务中可用的知识图谱(UMLS)进行融合,通过实验验证结论表明融合策略不仅仅是可以改善 MedNLI 数据集上的 BioELMo 模型的基线表现,而且在医疗领域的任务中也导致了最前沿的结果。
Aug, 2019
本文提出了一种新的生成模型,将先验用于计算词汇统计量的闭合形式表达式,从而为非线性模型提供了理论上的证明,并帮助解释了低维度语义嵌入中线性代数结构的存在,以及解决了词汇类比问题。
Feb, 2015