Hellinger PCA 嵌入词向量

Dec, 2013

Word Emdeddings through Hellinger PCA

Rémi Lebret, Ronan Collobert

TL;DR通过对单词共现矩阵的 Hellinger PCA，大大简化了单词嵌入的计算，从而成功地生成了适合于命名实体识别和影评任务的新单词嵌入，同时展示了深度学习如何提供一种简单方法来适应特定任务。

Abstract

word embeddings resulting from neural language models have been shown to be successful for a large variety of NLP tasks. However, such architecture might be difficult to train and time-consuming. Instead, we prop

word embeddings neural language models hellinger pca ner movie review

发现论文，激发创造

基于计数模型的词向量表示恢复

该研究是关于使用基于计数的模型来提取文本的语义表征，使用 Hellinger 距离用于处理大型语料库中的单词共现统计数据，并获得了很好的性能表现。

Dec, 2014

厌倦主题模型？预训练词嵌入聚类同样适用于快速且良好的主题！

本文提出了一种利用预训练单词嵌入进行文本聚类的新方法，同时整合文本信息进行加权聚类并重新排名前几个单词，旨在挖掘出文档集合中的主题，并对其性能进行基准测试并分析其在降维中的性能。实验表明，所提出的方法在降低时间和计算复杂度同时不输于传统的概率主题模型。

Apr, 2020

词嵌入的简单有效的降维方法

本文提出一种基于主成分分析和后处理算法相结合的新颖算法，用于将预先训练好的词向量降维，实验表明该算法能够在保证性能的前提下将词嵌入维数降至原来的一半。

Aug, 2017

利用词嵌入进行聚类的语言模型用于文本可读性评估

使用聚类方法基于词向量的语言模型，在一个更高语义空间中依据文本回归的特征表现显著优于之前的技术方案，同时具备与文档长度变化相关性自适应的能力。

Sep, 2017

词嵌入的语义结构和可解释性

该研究提出了一种统计方法来揭示密集词嵌入中的潜在语义结构，并引入了一个新的数据集（SEMCAT），其中包含超过 6500 个在 110 个类别下语义分组的单词。研究还提出了一种量化词嵌入可解释性的方法，这是一种实用的替代方法，不需要人为干预。

Nov, 2017

层次密度排序嵌入

本论文提出了一种基于概率密度的单词嵌入模型 —— 密度顺序嵌入模型。该模型通过实现简单而有效的损失函数和距离度量以及基于图的方案选择负样本，学习到分层的概率密度表示。实验结果表明，此方法在 WordNet 层级关系预测任务和 HyperLex 语义蕴涵数据集上表现出了最先进的性能，并保留了丰富而可解释的密度表示。

Apr, 2018

一种集成方法生成高质量的词向量嵌入（2016）

本文提出了一种集成方法，通过将 GloVe 和 word2vec 的嵌入方式与语义网络 ConceptNet 和 PPDB 的结构化知识相结合，将它们的信息融合成一个具有大型多语言词汇的共同表示，并达到了许多词语相似性评估的最先进性能

Apr, 2016

利用神经机器翻译嵌入词汇相似度

该研究探讨神经机器翻译模型所学到的嵌入，在需要同时考虑概念相似性和词汇 - 句法角色知识的任务中，它们的性能优于单语言模型所学到的嵌入。研究结果还表明，词汇扩展算法对嵌入质量的影响很小。

Dec, 2014

利用人类相似度评判修剪词向量以提高可解释性

通过一种有监督学习方法，针对特定领域（例如运动、职业），识别出一组强烈改善人类相似度判断预测的模型特征子集，并通过两种方法解释所保留特征的语义，从而揭示了人类如何根据性别包容性和国际性来区分运动类别，以及不同领域中特征对不同语义维度的预测能力。对于职业特征而言，最能预测认知、情感和社会维度，而对于水果或蔬菜特征而言，则最能预测味觉维度。讨论了对于人工智能系统与人类知识之间的对齐的意义。

Oct, 2023

向量空间中的层级：定向词和图嵌入

本文介绍一种从无序平面嵌入空间中捕捉层次结构信息的数据结构算法，基于权威性分布的想法构建有向根树，用于识别单词的上位词关系和寻找共同祖先，同时在维基页面链接恢复方面表现出优异的性能。

Nov, 2022