May, 2012

面向不对齐文本的多语言主题模型

TL;DR该研究开发了多语言主题模型(MuTo)来分析两种语言的文档,其使用随机 EM 来发现匹配语言和多语言潜在主题,因此能够发现真实世界中的共享主题,而无需仔细策划平行语料库,并允许广泛应用主题模型规范的应用于更广泛的语料库类别。