本研究总结了最近的构建定长、密集、分布式单词表示的主要策略,并阐述了这些表示通常被称为单词嵌入,并除了编码出色的句法和语义信息之外,还被证明在许多下游自然语言处理任务中有用的额外特征。
Jan, 2019
本文介绍了基于 37,604 篇开放获取的社会科学研究论文构建和评估词向量模型。在评估中,我们比较了特定领域和通用语言模型在语言覆盖、多样性和语义关系方面的差异。我们发现,即使词汇表的大小相对较小,所创建的特定领域模型覆盖了社会科学概念的大部分,与更通用的模型相比,邻域更加多样化。在所有关系类型中,我们发现更广泛的语义关系覆盖范围。
Feb, 2023
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
本文探讨使用无监督学习的方法,通过单词嵌入在词向量空间内学习语义相似性,以实现对文本分类任务的性能优化。研究发现,使用领域特定的词嵌入可以提高分类性能。
May, 2017
本文研究了使用银行特定语料库构建的词嵌入,相对于使用文本语料库构建的 Word2Vec 或 BERT 嵌入,银行特定语料库的嵌入在银行特定语义和词相关性的捕捉方面表现更好,因此可能成为银行业特定 NLP 任务的一种有效数据源。
Jun, 2023
本文旨在研究使用不同神经网络和通用与领域特定词嵌入的应用能力,以提高推文分类模型的性能,结果表明 Bi-LSTM 模型使用通用词嵌入(如 GloVe)效果最佳,最高可达 62.04%的 F1 分数。
Mar, 2019
本文探讨了使用不同的资源如临床笔记、生物医学出版物、维基百科和新闻训练的词嵌入,经过定性和定量评估后发现,基于临床笔记和生物医学出版物训练的词嵌入能更好地捕捉医学术语的语义,更接近于专家的判断,但是,无法为所有下游生物医学 NLP 任务提供一致的全局排名,只能将它们作为额外特征来提高大多数下游任务的结果。
Feb, 2018
该研究构建了一种基于语义词嵌入和频率信息的方法,用于捕捉短文本间的语义相似性并设计了基于权重模型和一种基于中位数损失函数的学习过程,实现得到低维度的文本表示,实验证明该方法在维基百科和 Twitter 数据上表现优异且具有较好的泛化性能。
Jul, 2016
本论文总结了词嵌入表示领域的广泛研究,概括了 16 种内在方法和 12 种外在方法,提出了一种方法分类并讨论了一些关键挑战。
Jan, 2018
该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构,并引入了一个新的数据集(SEMCAT),其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法,这是一种实用的替代方法,不需要人为干预。
Nov, 2017