自动编码变分贝叶斯用于推断主题和可视化

Oct, 2020

自动编码变分贝叶斯用于推断主题和可视化

Auto-Encoding Variational Bayes for Inferring Topics and Visualization

HTML

PDF

Dang Pham, Tuan M. V. Le

TL;DR本文介绍一种基于自动编码变分贝叶斯的推理方法，快速实现了主题和可视化的联合推断，以解决传统文本分析方法存在的降维和可视化困难，同时在大数据量情况下显著提高了效率和效果。

Abstract

visualization and topic modeling are widely used approaches for text analysis. Traditional →

发现论文，激发创造

随机折叠变分贝叶斯推断用于潜在狄利克雷分配

该研究提出了一种基于折叠变分贝叶斯推断技术的随机算法，能快速准确地从大规模数字文本信息中学习话题模型并与人交互分析。

May, 2013

关于主题模型变分推断的一些可证明正确的案例

本文针对潜变量模型中的主题模型，首次给出了变分推理算法收敛于全局最优解的分析，也证明了在主题-词矩阵和主题先验的自然假设下，变分推理可有效学习主题模型的最优参数。

Mar, 2015

使用词嵌入的非参数球形主题建模

本文提出使用von Mises-Fisher分布来建模单元球上的单词密度，以构建主题模型，并基于随机变分推理提出了一种高效的推断算法，实现了自然利用词嵌入的语义结构，同时能够灵活地发现主题数量。该方法在两个不同的文本语料库中拥有更好的主题连贯性并提供有效推理。

Apr, 2016

生成主题嵌入：文档连续表征(包含证明的扩展版)

本文提出一种生成主题嵌入模型，通过结合局部和全局单词共现模式，将局部和全局信息融合到主题表示中，从而在低维空间中表示文档，并在两个文档分类任务中表现优于八种现有方法，并且即使仅基于一个文档，也能生成连贯的主题。

Jun, 2016

主题嵌入式高效相关主题建模

本文提出了一种新的模型，通过主题向量之间的接近程度来学习紧凑的主题嵌入，并捕捉主题相关性，从而降低了以前的三次或二次时间复杂度至线性，同时利用快速采样器加速变分推断以利用主题出现的稀疏性，在不牺牲建模质量的前提下，能够处理比现有相关结果大几个数量级的模型和数据规模，并在文档分类和检索中提供竞争性或优越的性能。

Jul, 2017

用狄利克雷变分自编码器进行文本建模

介绍了一种更优秀的文本建模方法：将主题信息作为狄利克雷潜变量明确建模在变分自动编码机（VAE）中。提出的模型更适合重建输入文本，且由于引入的狄利克雷变量与传统的多元高斯变量之间固有的互动，使得模型更不容易出现KL散度消失。我们推导了新模型的变分下限，并在四个不同数据集上进行实验，结果表明，该模型在潜在空间的文本重建上更加优秀，并且所学特征的分类具有更高的测试准确性。

Oct, 2018

嵌入空间中的主题建模

本研究提出了一种新的主题模型，嵌入式主题模型（ETM），通过将传统的主题模型与词嵌入技术相结合，成功发现了即使在包含生僻词和停用词的大词汇表中也具有可解释性的主题。此外，研究还开发了高效的变分推理算法来拟合ETM进行预测。

Jul, 2019

锯齿阶乘主题嵌入引导伽马信念网络

本文提出了一种新的深度生成模型来捕获嵌入空间中主题之间的依赖关系和语义相似性，这种模型名为 sawtooth factorial topic embedding guided GBN，并通过在大型语料库上的实验证明了该模型的优越性。

Jun, 2021

大规模评估主题模型和降维方法在二维文本空间化中的应用

基于主题模型和降维的大规模基于基准的计算方法有效地设计文本空间化，t-SNE在降维中的适用性得到验证。

Jul, 2023

Topic-VQ-VAE: 基于潜在码书的灵活话题引导文档生成

该论文介绍了一种利用隐变量量化自动编码器(VQ-VAE)从语言预训练模型中离散地提取丰富信息的新颖主题建模方法，并提出了一种新的生成主题模型Topic-VQ-VAE(TVQ-VAE)，可以逆向生成与相应隐变量量化编码书相关的原始文档。实验证明，TVQ-VAE可以有效地捕捉主题上下文，揭示数据集的潜在结构，并支持灵活的文档生成形式。

Dec, 2023