自动编码变分贝叶斯用于推断主题和可视化
本文针对潜变量模型中的主题模型,首次给出了变分推理算法收敛于全局最优解的分析,也证明了在主题-词矩阵和主题先验的自然假设下,变分推理可有效学习主题模型的最优参数。
Mar, 2015
本文提出使用von Mises-Fisher分布来建模单元球上的单词密度,以构建主题模型,并基于随机变分推理提出了一种高效的推断算法,实现了自然利用词嵌入的语义结构,同时能够灵活地发现主题数量。该方法在两个不同的文本语料库中拥有更好的主题连贯性并提供有效推理。
Apr, 2016
本文提出一种生成主题嵌入模型,通过结合局部和全局单词共现模式,将局部和全局信息融合到主题表示中,从而在低维空间中表示文档,并在两个文档分类任务中表现优于八种现有方法,并且即使仅基于一个文档,也能生成连贯的主题。
Jun, 2016
本文提出了一种新的模型,通过主题向量之间的接近程度来学习紧凑的主题嵌入,并捕捉主题相关性,从而降低了以前的三次或二次时间复杂度至线性,同时利用快速采样器加速变分推断以利用主题出现的稀疏性,在不牺牲建模质量的前提下,能够处理比现有相关结果大几个数量级的模型和数据规模,并在文档分类和检索中提供竞争性或优越的性能。
Jul, 2017
介绍了一种更优秀的文本建模方法:将主题信息作为狄利克雷潜变量明确建模在变分自动编码机(VAE)中。提出的模型更适合重建输入文本,且由于引入的狄利克雷变量与传统的多元高斯变量之间固有的互动,使得模型更不容易出现KL散度消失。我们推导了新模型的变分下限,并在四个不同数据集上进行实验,结果表明,该模型在潜在空间的文本重建上更加优秀,并且所学特征的分类具有更高的测试准确性。
Oct, 2018
本研究提出了一种新的主题模型,嵌入式主题模型(ETM),通过将传统的主题模型与词嵌入技术相结合,成功发现了即使在包含生僻词和停用词的大词汇表中也具有可解释性的主题。此外,研究还开发了高效的变分推理算法来拟合ETM进行预测。
Jul, 2019
本文提出了一种新的深度生成模型来捕获嵌入空间中主题之间的依赖关系和语义相似性,这种模型名为 sawtooth factorial topic embedding guided GBN,并通过在大型语料库上的实验证明了该模型的优越性。
Jun, 2021
该论文介绍了一种利用隐变量量化自动编码器(VQ-VAE)从语言预训练模型中离散地提取丰富信息的新颖主题建模方法,并提出了一种新的生成主题模型Topic-VQ-VAE(TVQ-VAE),可以逆向生成与相应隐变量量化编码书相关的原始文档。实验证明,TVQ-VAE可以有效地捕捉主题上下文,揭示数据集的潜在结构,并支持灵活的文档生成形式。
Dec, 2023