主题稀疏性的 Sparsemax 和 Relaxed Wasserstein
本文提出了一种知识蒸馏框架,以压缩具有大内存占用的上下文化主题模型,而不会在主题质量上造成损失,并在两个公开数据集上进行实验以证明其有效性。
Mar, 2023
本文提出了一种混合算法,将稀疏 Gibbs 采样的效率与在线随机推断的可扩展性相结合,用于分析包含 120 万本书(330 亿词)的语料库,在多个 Bayesian 隐变量模型中具有广泛的推广能力。
Jun, 2012
本研究探讨稀疏神经模型在自然语言处理中的重要性,使用出租车欧几里得范数对稀疏度进行量化,发现输入频繁的词在激活方面较为集中,而目标词汇的激活由分散变得集中,并且功能词梯度比内容词梯度更集中。
Jul, 2019
本文提出了使用 Wasserstein 距离的无监督抽象摘要模型 WassOS,结合变分自编码器,把语义和句法空间分离并使用他们的 Wasserstein barycenter 得到摘要分布。实验表明,该模型在 ROUGE 指标上表现卓越且对于人类的评估达到了最佳的意思保留效果。
Nov, 2022
我们在 Wasserstein 自编码器(WAE)框架中提出了一种新颖的神经主题模型。通过直接在潜在文档 - 主题向量上施加狄利克雷先验,利用潜在空间的结构并应用合适的核,在最小化最大均值差异(MMD)中进行分布匹配,我们发现 MMD 在匹配高维度狄利克雷分布方面比生成对抗网络(GAN)表现更好。我们还发现,训练过程中在编码器输出中引入随机性可以产生更加连贯的主题。为了衡量所产生的主题的多样性,我们提出了一个简单的主题唯一性度量。结合广泛使用的语义相关性度量 NPMI,实验证明我们的模型比现有模型产生更好的主题质量。
Jul, 2019
本文提出使用 von Mises-Fisher 分布来建模单元球上的单词密度,以构建主题模型,并基于随机变分推理提出了一种高效的推断算法,实现了自然利用词嵌入的语义结构,同时能够灵活地发现主题数量。该方法在两个不同的文本语料库中拥有更好的主题连贯性并提供有效推理。
Apr, 2016
本文介绍一种新的 “直和” 基础度量方法用于概率简单形式下的混合随机变量,并对混合离散变量模型的表示与采样提出两种策略,通过基于混合随机变量的自动编码器的实现和表现,验证该方法的有效性。
Aug, 2021
本文研究的是 Latent Dirichlet Allocation 模型的一个变体,将文档混合比重置为 squashed Gaussian 分布,从而实现对以时间、空间、层次结构、社交等方面为特征的文档的建模,同时提出了一个基于 Laplace 近似的转化基础的近似算法以便对隐藏的高斯分布进行有效的近似推断。该 KTM 模型也可以被解释为一种 Gaussian 过程潜变量模型,或基于文档特征的主题模型,在发掘这些领域的早期工作的联系时非常有用。
Oct, 2011
这篇论文介绍了神经方法在主题建模中的应用,特别是提供可参数化分布以允许可变参数下的后向传播,同时提出了一种递归网络,能够类似于贝叶斯非参数主题模型发现数量概念上无限的主题,在 MXM Song Lyrics,20NewsGroups 和 Reuters News 数据集上得到了实验结果的证明。
Jun, 2017
本文探讨了用于高维稀疏计数数据建模的潜在狄利克雷分析或话题模型,比较了多种学习算法,发现主要区别在于应用于计数的平滑量。在优化超参数时,算法性能的差异显著缩小,这使得我们能够选择计算效率高的方法来学习准确的主题模型。
May, 2012