EMNLPDec, 2022

BERTopic 在多领域短文本上的泛化实验

TL;DR本研究探讨了在短的多领域文本中如何运用 BERTopic 算法进行主题建模,并发现与 Latent Dirichlet Allocation 相比,BERTopic 在主题连贯性和多样性方面的表现更好。我们进一步分析了 BERTopic 所使用的 HDBSCAN 聚类算法的性能,并发现其将大多数文档分类为异常值。在使用 k-Means 替换 HDBSCAN 后,我们取得了类似的性能表现,但不再出现异常值。