Nov, 2016

锚定相关性解释:最小领域知识主题建模

TL;DR本文介绍了一种名为 CorEx 的主题建模方法,这种方法不需要假设潜在的生成模型,而是通过信息理论框架学习最大信息的主题。该框架可以自然地推广到具有层次结构和半监督扩展的情况,通过锚词,可以灵活地将单词级的领域知识纳入 CorEx,从而最小限度地促进主题的可分离性和表征。通过多种数据集、指标和实验,我们证明了 CorEx 产生的主题与无监督和半监督变体的 LDA 所产生的主题在质量上是可比较的。