TaxoCom: 利用分层发现新话题群集的主题分类完成
本文提出了一种采用嵌入术和层次聚类方法的主题分类法 TaxoGen,通过每个节点表示概念主题,定义为语义一致概念项的聚类,以构建主题分类法,并对两个真实数据进行了实验,证明了其与基线方法的有效性。
Dec, 2018
TopicExpan 是一种新的主题分类扩展框架,它结合了基于文本内容和新主题周围的层级关系结构,直接生成新主题相关的术语,实验结果表明,它在两个真实文本语料库中的表现显著优于其他基线方法。
Oct, 2022
本研究提出了一种名为 TaxoEnrich 的新的分类完成框架,它有效地利用现有分类体系中的语义特征和结构信息,并提供更好的候选位置表示以提高分类完成性能。实验结果表明,在四个来自不同领域的大型真实数据集上,TaxoEnrich 在所有评估指标上均实现了最佳性能,并且在很大程度上优于先前的最新方法。
Feb, 2022
本文提出了名为 ATTEMPT 的两阶段方法,通过找到父节点并标记子节点的方式,将新概念插入正确的位置。利用预训练的语言模型进行上下位关系识别,通过合并本地节点和提示生成自然语句。实验结果表明,ATTEMPT 在分类系统补全和扩展任务上表现最佳,超过了现有方法。
Jun, 2024
提出了一种新方法:基于类别树描述的文本语料库的层次话题挖掘,通过开发一种新的联合树和文本嵌入方法,同时建模类别树结构和语料库生成过程来实现有效的层次话题挖掘,发现代表性词。该方法具有高效的性能和弱监督下的分类任务性能优势。
Jul, 2020
本文提出了一种名为 TaxoExpan 的自我监督框架,使用一组 <查询概念,锚定概念> 对从现有分类法中自动生成的训练数据。通过使用这种自我监督数据,TaxoExpan 学习模拟预测查询概念是否为锚定概念的直接下位词的模型,并提出了两个创新技术:(1)增强位置的图神经网络,用于编码现有分类法中锚定概念的局部结构;(2)噪声鲁棒训练目标,使学习模型不受自我监督数据标注噪声的影响。实验结果表明,TaxoExpan 对于分类法扩展具有高效性和有效性。
Jan, 2020
通过使用基于指令的精调大型语言模型(LLMs),本研究提出了一种无监督方法来自动生成和扩展主题分类法。我们运用主题建模和关键词提取技术创建初始主题分类法,并使用 LLMs 对结果进行后处理以创建层次结构。为了通过新术语扩展现有分类法,我们使用零样本提示来确定在何处添加新节点,这是首次在分类任务中提出此种方法。我们使用生成的分类法为来自零售银行数据集的商户分配标签。为了评估我们的工作,我们请 12 位志愿者回答一个两部分的表格,首先评估创建的分类法质量,然后评估基于该分类法为商户分配的标签。评估结果显示所选分类法的一致性率超过 90%,而商户分配的平均一致性超过 80%。
Jan, 2024
本文提出了一个无监督文本聚类与主题提取框架 “ClusTop”,该框架将文本聚类和主题提取整合到一个统一的框架中,并可以同时实现高质量的聚类结果和从每个聚类中提取主题。该框架包括四个组件:增强语言模型训练、降维、聚类和主题提取。
Jan, 2023
通过提出 Triplet Matching Network 模型,实现了新的 “taxonomy completion” 任务,即同时发现查询的上位词和下位词,通过实验验证,在实现新任务的同时,对于以往的 taxonomy expansion 任务也取得了最佳表现。
Jan, 2021