该研究是关于使用基于计数的模型来提取文本的语义表征,使用Hellinger距离用于处理大型语料库中的单词共现统计数据,并获得了很好的性能表现。
Dec, 2014
本文探讨使用无监督学习的方法,通过单词嵌入在词向量空间内学习语义相似性,以实现对文本分类任务的性能优化。研究发现,使用领域特定的词嵌入可以提高分类性能。
May, 2017
本文提出了一种利用加权词向量嵌入学习无标注句子表示的无监督方法,通过TF-IDF变换提供的Shannon词熵拟合词向量的权重,选择不同的超参得出短期训练、在线推理的句子表示,经过与STS系统的对比表明,该方法在语义文本相似度模型中的表现已达到最优。
Oct, 2017
此研究综述了分布式语义表示的理论背景,介绍了从单词级别向更精细的词义级别转化的方法,并提供了对两种主要分支进行的广泛技术概述;最终,对其重要方面进行了分析与评估。
May, 2018
本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题,并在英文词汇相似性任务和23种语言的词性标注和变形属性的联合预测任务中实现了最优表现。
Sep, 2018
本研究提出了一种基于表面形式和上下文信息两种方式的词嵌入方法,取得了在Definitional Nonce和Contextual Rare Words数据集上的最好效果,可以帮助处理NLP中的生词。
Nov, 2018
本文提出了一种利用词典等词汇资源,采用图嵌入和跨语言向量空间转换技术,为未见过的单词诱导嵌入的方法,对多个基准测试进行了优化,表现出一致的性能提升。
本研究提出基于预训练语言模型的动态情境词向量,能够以语言和非语言环境为依据来表征单词的含义变化,并在四个英文数据集上做出定性和定量分析,以彰显其应用潜力。
Oct, 2020
该研究提出了一种理论方法,将词嵌入和知识图谱中的实体及其关系的几何形状联系起来,以便更好地理解它们的语义结构和性能。
Feb, 2022
提出了 Learnable Formulated Weights (LFW) 和 Epoch-based Dynamic Window Size (EDWS) 两种新的方法,用于改进 Word2Vec 的性能,加强了 Word2Vec 在 NLP 文本建模中的表现。
Apr, 2024