Jul, 2019

Wasserstein 自动编码器用于主题建模

TL;DR我们在 Wasserstein 自编码器(WAE)框架中提出了一种新颖的神经主题模型。通过直接在潜在文档 - 主题向量上施加狄利克雷先验,利用潜在空间的结构并应用合适的核,在最小化最大均值差异(MMD)中进行分布匹配,我们发现 MMD 在匹配高维度狄利克雷分布方面比生成对抗网络(GAN)表现更好。我们还发现,训练过程中在编码器输出中引入随机性可以产生更加连贯的主题。为了衡量所产生的主题的多样性,我们提出了一个简单的主题唯一性度量。结合广泛使用的语义相关性度量 NPMI,实验证明我们的模型比现有模型产生更好的主题质量。