一种生成型词嵌入模型及其低秩半正定解决方案

Aug, 2015

一种生成型词嵌入模型及其低秩半正定解决方案

A Generative Word Embedding Model and its Low Rank Positive Semidefinite Solution

Shaohua Li, Jun Zhu, Chunyan Miao

TL;DR提出了一种生成词嵌入模型，可用于更复杂的潜在因素模型，推理基于低秩迹近似和区块回归，具有概率解释性和数据保持特性。

Abstract

Most existing word embedding methods can be categorized into Neural Embedding Models and Matrix Factorization (MF)-based methods. However some models are opaque to probabilistic interpretation, and MF-based methods, typically solved using Singular Value Decomposition (SVD), may incur l

发现论文，激发创造

一种基于概率矩阵分解的词嵌入模型

本文提出了一种新的生成模型，将先验用于计算词汇统计量的闭合形式表达式，从而为非线性模型提供了理论上的证明，并帮助解释了低维度语义嵌入中线性代数结构的存在，以及解决了词汇类比问题。

Feb, 2015

生成主题嵌入：文档连续表征(包含证明的扩展版)

本文提出一种生成主题嵌入模型，通过结合局部和全局单词共现模式，将局部和全局信息融合到主题表示中，从而在低维空间中表示文档，并在两个文档分类任务中表现优于八种现有方法，并且即使仅基于一个文档，也能生成连贯的主题。

Jun, 2016

语言作为潜变量：离散生成模型用于句子压缩

通过深度生成模型进行文本压缩，利用离散语言模型分布作为文档的潜在表示，生成模型引入离散语言模型的概念，通过变分自编码器进行推断，本研究在大量监督数据训练的情况下，得出抽象和提取式压缩的最新成果，并探索半监督压缩场景。

Sep, 2016

联合学习词嵌入和潜在主题

该研究提出了一个名为STE的框架，可以以统一的方式学习词嵌入和潜在主题，从而解决多义问题，并在有效且高效的方式下生成有用的主题特定的词嵌入和连贯的潜在主题。

Jun, 2017

词嵌入的维度性

通过提出Pairwise Inner Product (PIP) loss提出了一种新的度量词嵌入非相似性的方法，并使用矩阵摄动理论揭示了词嵌入维度选择中的基本偏差-方差权衡，同时阐明了词嵌入过度拟合的鲁棒性。

Dec, 2018

嵌入空间中的主题建模

本研究提出了一种新的主题模型，嵌入式主题模型（ETM），通过将传统的主题模型与词嵌入技术相结合，成功发现了即使在包含生僻词和停用词的大词汇表中也具有可解释性的主题。此外，研究还开发了高效的变分推理算法来拟合ETM进行预测。

Jul, 2019

动态嵌入主题模型

该研究采用动态主题模型和词嵌入模型组合设计了一种动态嵌入主题模型，通过向每个时间步长中的嵌入表示赋值主题，该模型能够学习到平滑的主题轨迹，并在三个不同的语料库上发现，在文档完成任务中，该模型优于动态LDA，而且比LDA更易于训练。

Jul, 2019

用于数据高效文本分类的潜变量生成模型

通过向生成式文本分类器引入离散潜变量，并探究几种图模型配置，我们提高了它的性能，尤其在小数据集下，同时分析了模型的可解释性。

Oct, 2019

现有词嵌入方法的全面实证评估

本文通过对现有单词嵌入方法的特点和分类任务的分析，将单词嵌入方法划分为传统方法和基于神经网络的方法，揭示基于神经网络的单词表示方法相比于传统方法更能捕捉语言的语义和句法规律。实验验证了不同方法的性能差异。

Mar, 2023

神经概率先验词嵌入

改进词表示学习，我们提出了一种概率先验，它可以无缝地与词嵌入模型集成。不同于先前的方法，词嵌入被看作是一种概率生成模型，它使我们能够对词表示学习施加先验进行正则化。所提出的先验不仅增强了嵌入向量的表示，还提高了模型的鲁棒性和稳定性。该先验的结构简单而有效，可以很容易地实现并灵活地插入到大多数现有的词嵌入模型中。广泛的实验证明了所提出的方法在各种任务上改善了词表示。

Sep, 2023