我们提出了一种新颖的分层主题检测方法,使用层次潜在树模型来对文档进行聚类并检测主题,该模型使用二元变量来表示文档中单词的存在 / 缺失,并利用树形结构建模主题和单词之间的关系,因此不需要引用文档生成过程,有助于发现有意义的主题和主题层次结构。
May, 2016
本文提出了关键词辅助嵌入式主题模型(KeyETM),它使嵌入式主题模型(ETM)得以利用用户先前领域知识中的信息,从而在量化指标和主题干扰任务的实验中展现了优秀的表现,而不仅仅是将话题模型作为无监督模型。
Nov, 2021
本文提出一种新的名为 Hierarchical Latent Semantic Mapping (HLSM) 的主题生成方法,它可以自动从语料库中生成主题,并使用单词之间的关联和层次生成主题网络。实验表明,相比于现有的一些最先进的方法,HLSM 在几个文档集合上表现良好。
Nov, 2015
该研究采用动态主题模型和词嵌入模型组合设计了一种动态嵌入主题模型,通过向每个时间步长中的嵌入表示赋值主题,该模型能够学习到平滑的主题轨迹,并在三个不同的语料库上发现,在文档完成任务中,该模型优于动态 LDA,而且比 LDA 更易于训练。
Jul, 2019
本文介绍了潜在树语言模型(LTLM),该模型将给定句子的语法和语义编码为单词角色树。将 LTLM 与 4 元修改 Kneser-Ney 语言模型相结合,通过线性插值,在英语和捷克语语料库中的实验表明,与独立的 4 元修改 Kneser-Ney 语言模型相比,明显降低了困惑度(英语最高降低 46%,捷克语最高降低 49%)
Jul, 2016
该研究提出了一种基于马尔可夫随机场框架下的因子图表示方法,实现了传统信念传播算法对隐含狄利克雷分配模型的近似推理和参数估计,该算法在速度和准确性方面均具有竞争力,并且可以成为基于 LDA 的话题模型的通用学习方案。
Sep, 2011
本文发展了一个用于层次化文本分类的决策支持系统,提出了一种加权层次化相似性函数来计算主题的相关性,并使用熵来估计权重。通过与其他方法比较,该加权层次化相似性函数在主题排名准确性方面有了更好的改进。
Jun, 2024
设计了一个高效的工具,利用大型语言模型从大规模事件序列中提取逻辑树解释,以为每个观察到的事件序列提供定制化的洞察力。
该研究提出了一种名为 EM-HRNN 的新型架构,通过隐式层次信息(例如短语)的学习,进一步发展了 EM 算法来处理隐藏层,使文本的分层结构更加简单,并且证明在文档分类任务中,EM-HRNN 模型能够优于其他基于 RNN 的模型和相似于 Bert-base 的 Transformer 方法的性能,尽管前者是更小的模型且不需要预训练。
Jan, 2022
本篇论文介绍了一种基于词向量和马尔科夫随机场正则化模型的主题模型,从而改进对小文本数据的话题推断。结果表明,与传统主题模型相比,改进后的方法可以更有效地对短文本数据进行话题建模。
Sep, 2016