一种集成方法生成高质量的词向量嵌入(2016)
在计算社会科学的各种应用中,静态词嵌入广泛存在并为实际决策做出了贡献,然而,从词嵌入统计中得出的下游结论的统计不确定性评估一直是具有挑战性的。本文提出了一种方法,通过使用多元正态模型的解析近似来获得 GloVe(Pennington 等,2014)的近似、易于使用和可扩展的重建误差方差估计,GloVe 是最广泛使用的词嵌入模型之一。为了展示具有方差(GloVe-V)的嵌入的价值,我们说明了我们的方法如何使核心词嵌入任务中的原则性假设检验变得合理,例如在向量空间中比较不同词对之间的相似性,评估不同模型的性能,并使用不同的词列表分析语料库中的种族或性别偏见的相对程度。
Jun, 2024
提出一种新模型共同学习单词和语义嵌入,以解决现有方法无法区分单词不同含义的问题,利用大规模预料库和语义网络优化嵌入空间,并在各种任务中评估了该方法的优点。
Dec, 2016
本文介绍了一种利用集成学习方法构建元嵌入(meta-embeddings) 的方式,通过将不同的公开嵌入集合相结合,提高嵌入语义的质量。和单个嵌入集相比,元嵌入可以更好地完成词相似性,词类标注等任务,并且具有更广泛的词汇覆盖。
Aug, 2015
该文提出了一种基于主题模型的 skip-gram 方法来学习多原型词嵌入,同时介绍了一种修剪嵌入的方法,用于代表每个主题中每个单词的概率表示, 并将我们的嵌入用于展示它们可以强烈地捕获上下文和词汇相似性,并优于各种最先进的实现。
Sep, 2019
本文提出一种利用命题逻辑表示单词语义的词嵌入方法,使用 Tsetlin 机器自编码器进行学习,探讨了其在自然语言处理领域中的重要性,对比了其他模型,研究表明在多项分类任务中表现良好,且具有一定的可解释性。
Jan, 2023
通过探索名词短语的句法结构,我们创建了一个名为 embeddings_PP 的新的单词嵌入模型。使用该模型使得凌驾于 ISNotes 语料库上的关联性替代了语义相似性,实现了 30% 的桥接代词解决精度,并在桥接前置词选择中获得了超过最先进系统(Hou 等,2013 年)的实质性提升。
Mar, 2018
本文通过对现有单词嵌入方法的特点和分类任务的分析,将单词嵌入方法划分为传统方法和基于神经网络的方法,揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。
Mar, 2023
本研究详细介绍了一个基于丰富的单词嵌入的组成分布式框架,旨在促进句子中单词之间的交互,并使用环境中的句法信息来增强向量。研究结果表明,该框架在 MSRPar 任务上取得了具有代表性的结果。
Aug, 2015
提出一种扩展 Skip-gram 模型的方法,它可以高效地学习每个单词类型的多个嵌入,通过联合进行词义辨别和嵌入学习,非参数地估计每个单词类型的很多不同的词义,并通过在一个拥有近 10 亿标记的语料库上训练一台机器的演示,展示了它的可扩展性。
Apr, 2015
使用多种语言 Wikipedia 来为 100 多种语言训练单词嵌入表示,并将其应用在词性标注中取得了与英语、丹麦语和瑞典语接近最新成果的表现。此外,通过单词分组的距离等方式,进一步研究了这些嵌入所捕获的语义特征,并将这些嵌入公开以帮助多语言应用的开发和增强.
Jul, 2013