Jul, 2009

使用多词表达方式视觉化主题

TL;DR提出了一种用于主题可视化的新方法,使用潜在变量模型自动提取大型文本语料库中的 term 分布,并利用与主题相关的重要短语来解释该分布。该方法使用基于任意长度表达式的语言模型,并提出了一种基于嵌套排列检验的新方法来查找重要短语。结果表明,该方法优于标准的卡方检验和似然比检验。应用在科学摘要和新闻文章的语料库上,演示了主题的呈现。