Hellinger PCA 嵌入词向量
本文提出了一种利用预训练单词嵌入进行文本聚类的新方法,同时整合文本信息进行加权聚类并重新排名前几个单词,旨在挖掘出文档集合中的主题,并对其性能进行基准测试并分析其在降维中的性能。实验表明,所提出的方法在降低时间和计算复杂度同时不输于传统的概率主题模型。
Apr, 2020
使用聚类方法基于词向量的语言模型,在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案,同时具备与文档长度变化相关性自适应的能力。
Sep, 2017
该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构,并引入了一个新的数据集(SEMCAT),其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法,这是一种实用的替代方法,不需要人为干预。
Nov, 2017
本论文提出了一种基于概率密度的单词嵌入模型 —— 密度顺序嵌入模型。该模型通过实现简单而有效的损失函数和距离度量以及基于图的方案选择负样本,学习到分层的概率密度表示。实验结果表明,此方法在 WordNet 层级关系预测任务和 HyperLex 语义蕴涵数据集上表现出了最先进的性能,并保留了丰富而可解释的密度表示。
Apr, 2018
本文提出了一种集成方法,通过将 GloVe 和 word2vec 的嵌入方式与语义网络 ConceptNet 和 PPDB 的结构化知识相结合,将它们的信息融合成一个具有大型多语言词汇的共同表示,并达到了许多词语相似性评估的最先进性能
Apr, 2016
该研究探讨神经机器翻译模型所学到的嵌入,在需要同时考虑概念相似性和词汇 - 句法角色知识的任务中,它们的性能优于单语言模型所学到的嵌入。研究结果还表明,词汇扩展算法对嵌入质量的影响很小。
Dec, 2014
通过一种有监督学习方法,针对特定领域(例如运动、职业),识别出一组强烈改善人类相似度判断预测的模型特征子集,并通过两种方法解释所保留特征的语义,从而揭示了人类如何根据性别包容性和国际性来区分运动类别,以及不同领域中特征对不同语义维度的预测能力。对于职业特征而言,最能预测认知、情感和社会维度,而对于水果或蔬菜特征而言,则最能预测味觉维度。讨论了对于人工智能系统与人类知识之间的对齐的意义。
Oct, 2023
本文介绍一种从无序平面嵌入空间中捕捉层次结构信息的数据结构算法,基于权威性分布的想法构建有向根树,用于识别单词的上位词关系和寻找共同祖先,同时在维基页面链接恢复方面表现出优异的性能。
Nov, 2022