本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
该研究提出了一种理论方法,将词嵌入和知识图谱中的实体及其关系的几何形状联系起来,以便更好地理解它们的语义结构和性能。
Feb, 2022
本文研究了使用银行特定语料库构建的词嵌入,相对于使用文本语料库构建的 Word2Vec 或 BERT 嵌入,银行特定语料库的嵌入在银行特定语义和词相关性的捕捉方面表现更好,因此可能成为银行业特定 NLP 任务的一种有效数据源。
Jun, 2023
该综述评估了现有的上下文嵌入模型,跨语言多语预训练,上下文嵌入在下游任务中的应用,模型压缩和分析。
Mar, 2020
该论文通过解构方法回顾了词嵌入模型,揭示了诸多缺点和不一致性,包括向量表示的不稳定性、扭曲的类比推理、与语言特征的几何不兼容性以及语料库数据的不一致性,提出了一种新的理论嵌入模型 —— 德里达式嵌入 (Derridian Embedding),并对现代嵌入模型进行了定性评估,比较了它们与德里达式嵌入的能力是否相当。
Jan, 2019
本研究总结了最近的构建定长、密集、分布式单词表示的主要策略,并阐述了这些表示通常被称为单词嵌入,并除了编码出色的句法和语义信息之外,还被证明在许多下游自然语言处理任务中有用的额外特征。
使用多种语言 Wikipedia 来为 100 多种语言训练单词嵌入表示,并将其应用在词性标注中取得了与英语、丹麦语和瑞典语接近最新成果的表现。此外,通过单词分组的距离等方式,进一步研究了这些嵌入所捕获的语义特征,并将这些嵌入公开以帮助多语言应用的开发和增强.
Jul, 2013
本文探讨使用无监督学习的方法,通过单词嵌入在词向量空间内学习语义相似性,以实现对文本分类任务的性能优化。研究发现,使用领域特定的词嵌入可以提高分类性能。
May, 2017
这篇论文介绍了自然语言处理领域的一个分支 —— 词向量,它们的产生、作用、历史发展以及现今面对的挑战,同时讨论了最新的研究成果 —— 上下文词向量。
Feb, 2019
本文研究了词嵌入在查询扩展中的应用,结果表明全局训练的 Word2Vec 和 GloVe 等词嵌入不能很好地完成信息检索任务,建议其他使用全局嵌入的任务也可以受益于使用局部嵌入。
May, 2016