- 利用最优传输的互动主题模型
EdTM is a label name supervised topic modeling approach that incorporates analysts' understanding of the corpus using LM - $S^3$ -- 语义信号分离
使用语义空间中的盲源分离,$S^3$ 是一种理论驱动的主题建模方法,提供最广泛、高度一致的主题,无需预处理,并且是迄今为止最快的上下文敏感主题模型。
- FASTopic:一种快速适应稳定且可迁移的主题建模范式
FASTopic 是一种快速、自适应、稳定和可传递的主题模型,采用 Dual Semantic-relation Reconstruction(DSR)方法来发现潜在主题,并通过模拟文档、主题和词嵌入之间的语义关系进行重建,以提供一个高效的 - 概念诱导:使用 LLooM 对非结构化文本进行高级概念分析
我们引入概念归纳,一种从非结构化文本中提取明确纳入标准的高级概念的计算过程,该过程通过使用大型语言模型不断合成抽样文本并提出具有不断广泛性的可解释概念。我们在具有毒性的在线评论数据集上实例化了 LLooM,并通过技术评估和四个分析场景的研究 - 增强短文本建模:利用大型语言模型进行主题细化
利用大型语言模型对主题进行细化改进,从而显著提高主题的语义连贯性。
- 主题建模中的成员推断攻击和隐私
最近的研究表明,大型语言模型容易受到侵犯隐私的攻击,推断出训练数据的某些方面。然而,目前尚不清楚是否简单的生成模型(如主题模型)具有类似的弱点。本文提出了一种针对主题模型的攻击方法,可以自信地识别潜在狄利克雷分布中的训练数据成员。我们的结果 - 主题模型的几何结构
使用关系顺序结构从平面主题模型中提取概念关系,引入一种适用于主题空间的自顶向下视角的新可视化范例。
- ACL超越自动化评估指标:在实践中评估主题模型在社会科学内容分析任务上的能力
通过对话题模型进行评估,发现神经网络模型(NTMs)在实际任务中的效果优于传统模型,且自动评估指标无法提供全面的话题建模能力。
- 神经主题模型综述:方法、应用和挑战
综述了神经主题模型(Neural Topic Models)的方法、应用和挑战,将当前的神经主题模型方法按网络结构进行系统分类,并介绍了在短文本和跨语言文档等多种场景中的神经主题模型应用。还讨论了基于神经主题模型构建的各种热门应用,最后指出 - 重访主题指导语言模型
一项最近的自然语言处理研究旨在结合语言模型和主题模型,这些主题引导的语言模型通过将主题模型与神经语言模型相结合,采用无监督学习方法来发现文档级别的词汇使用模式。本文比较了这些方法在标准化环境中的效果,并发现这些方法中没有任何一种超越了标准 - 有标记的交互式主题模型
通过为神经主题模型添加一种直观的交互方式,即用户可以为主题标记一个词语,并更新主题词使其靠近标记词,从而允许用户根据信息需求优化主题,我们的研究方法通过人机研究评估,证明用户标记能够改善文件排序得分,帮助找到更相关的文档。
- 利用预训练语言模型进行短文本主题建模
在本论文中,我们采取了一种新的方法来解决短文本主题建模中的数据稀疏问题,通过利用现有的预训练语言模型将短文本扩展为更长的序列。此外,我们提供了一种简单的解决方案,通过扩展神经主题模型来减少预训练语言模型生成的与主题无关的噪声文本的影响。我们 - TopicAdapt - 一种企业间主题自适应方法
该论文介绍了一种神经主题模型 TopicAdapt,可以从一个相关的源语料库中适应相关主题,并在目标语料库中发现源语料库中缺失的新主题,实验结果表明,该模型在多个领域的多个数据集上表现优于现有的主题模型。
- 走近顶峰:主题建模系统工具包
我们提出了一个主题建模系统工具包(TopMost),它与现有工具包相比,能够涵盖更广泛的主题建模场景,包括完整的周期,包括数据集预处理,模型训练,测试和评估。TopMost 具有高度协调和解耦的模块化设计,可以快速利用、公平比较和灵活扩展不 - 走向神经主题表示的泛化
提出了一种通过模型相似度来改进神经主题模型的方法,利用数据增强和层次化主题传输距离来计算文档之间的语义距离,从而显著提高神经主题模型在不同语料库中的泛化能力。
- 大规模评估主题模型和降维方法在二维文本空间化中的应用
基于主题模型和降维的大规模基于基准的计算方法有效地设计文本空间化,t-SNE 在降维中的适用性得到验证。
- ICML嵌入式聚类正则化有效的神经主题建模
本文提出了一种新的神经主题模型 —— 嵌入聚类正则化主题模型 (ECRTM),通过嵌入聚类正则化 (ER) 使每个产生的主题包含不同的词义,从而缓解了主题崩溃问题,并在主题质量、文档主题分布和下游分类任务等方面持续超越了最先进的基线。
- ACL基于在线客户评论的疼点检测的可扩展观点挖掘框架
本文介绍了 Painsight,一种无监督的框架,通过使用预训练的语言模型和构建情感分析和主题模型,利用模型梯度导出的归因分数自动从顾客评价中提取出不同的不满因素,并成功地应用于五种产品类别的客户评价数据中,提出的方法在人工评估中表现出卓越 - 使用大语言模型重新审视自动主题模型评估
利用大语言模型自动评估主题模型,以解决自动评估和确定最佳主题数量的问题,并使用文档标记自动确定最佳主题数量。
- ACL神经主题模型真的需要 Dropout 吗?对 Topic Modeling 中 Dropout 效果的分析
本文分析了在三种神经主题模型(CTM,ProdLDA 和 ETM)使用 VAE 的编码器和解码器中的 Dropout 对生成主题的质量和预测性能的影响。