通过潜在语义插补增强领域词嵌入

KDDMay, 2019

通过潜在语义插补增强领域词嵌入

Enhancing Domain Word Embedding via Latent Semantic Imputation

Shibo Yao, Dantong Yu, Keli Xiao

TL;DR本研究提出了一种名为潜在语义填补（LSI）的方法，利用图论提取亲和性空间内实体的潜在流形结构，结合非负最小二乘法和幂迭代法，将外部知识转移入语义空间，生成并填补语义空间中低频词的可靠嵌入向量，优化词嵌入效果，进而提升下游自然语言处理任务的性能。实验验证了该方法在分类和语言模型任务中的显著优于多种常用词嵌入方法，且结果在不同参数下稳定一致。

Abstract

We present a novel method named latent semantic imputation (LSI) to transfer external knowledge into semantic space for enhancing word embedding. The method integrates →

latent semantic imputation graph theory spectral embeddings word embedding language tasks

发现论文，激发创造

利用知识图谱和潜在语义插补法更新科学词嵌入

本文介绍了如何使用 LSI 模型从最新的知识图谱中插入诸如罕见术语、新兴术语之类的领域特定词汇向量，以生成可靠的罕见和 OOV 术语的嵌入向量。以医学为例，使用 MeSH 知识图谱来插入生成生物医学术语嵌入向量，无需重新训练即可评估所得嵌入模型的可靠性。

Oct, 2022

整合语言模型与语义信息的词语预测组件方法

本文研究了使用 Latent Semantic Analysis（LSA）方法增强语言模型的预测能力，并提出并评估了几种整合 LSA 的方法，包括语义缓存，部分重新排序和插值等。与 4-gram 基线和简单缓存模型相比，我们发现所有的方法都有显著的改进，其中大部分方法有更大的改进。

Jan, 2008

利用图卷积网络中的基础语言信息进行词汇外插补

该研究提出了使用知识图谱的方法来进行嵌入补全，与目前常用的向量空间属性或子词信息不同，最终在多个领域的任务上显示其可以提高单词的表示，如在 Card-660 任务中使用 GloVe 嵌入，我们的方法将 Pearson 和 Spearman 相关系数分别提高了 11% 和 17.8%。

Jun, 2019

通过对齐异构词汇语义空间实现未见词表示

本文提出了一种利用词典等词汇资源，采用图嵌入和跨语言向量空间转换技术，为未见过的单词诱导嵌入的方法，对多个基准测试进行了优化，表现出一致的性能提升。

Nov, 2018

知识图谱嵌入的位置敏感嵌入

知识图谱嵌入主要分为平移距离模型和语义匹配模型，在平移距离模型中，头尾实体的区分能力是一个关键挑战，而新颖的位置敏感嵌入 (LSE) 方法通过使用关系特定的映射来改变头实体，将关系概念化为线性变换，而不是简单的平移，它的理论基础、表现能力和与现有模型的联系都得到了充分的研究，一个更简化的变体 LSEd 通过对变换使用对角线矩阵以提高实际效率，在四个大规模数据集上进行的链接预测测试中，LSEd 要么表现出色，要么与领先的现代模型竞争力相当。

Dec, 2023

产品搜索的潜在向量空间学习

本文提出了一种新型的潜向量空间模型，可在无需明确注释的情况下，联合学习单词、电子商务产品的潜在表示以及两者之间的映射，能直接建模产品与特定单词之间的鉴别关系，并在学习排序库特征方面证明其性能优越性。

Aug, 2016

通过 LLMs 潜空间增强上下文分类

使用转换器模型从维基百科数据集及其相关类别中提取语义信息，通过不同方法对类别的语义特征进行评估和增强，以提高数据组织的语义准确性。

Apr, 2024

基于生成模型中的潜空间插值实现无监督元学习

本文提出一种基于生成模型的元任务生成方法，称为 LAtent Space Interpolation Unsupervised Meta-learning (LASIUM)，通过从潜在空间中生成分组成群的对象，构建元任务的训练和验证数据，应用于少样本分类任务中的实验表明其性能优于或与当前无监督学习基线相竞争，并且该方法不需要手工调整，扩展性高。

Jun, 2020

利用知识图谱将领域知识融入医疗自然语言推理

本文研究如何将医学语言模型（BioELMo）的结构与医学任务中可用的知识图谱（UMLS）进行融合，通过实验验证结论表明融合策略不仅仅是可以改善 MedNLI 数据集上的 BioELMo 模型的基线表现，而且在医疗领域的任务中也导致了最前沿的结果。

Aug, 2019

一种基于概率矩阵分解的词嵌入模型

本文提出了一种新的生成模型，将先验用于计算词汇统计量的闭合形式表达式，从而为非线性模型提供了理论上的证明，并帮助解释了低维度语义嵌入中线性代数结构的存在，以及解决了词汇类比问题。

Feb, 2015