- 基于大型语言模型的上下文感知聚类
使用开源的大型语言模型(LLMs)进行效率高且有效的监督聚类,通过捕捉上下文来聚类实体子集。通过引入一种新的改进的三元损失函数和基于文本增强技术的自监督聚类任务,我们的方法在各种电子商务查询和产品聚类数据集上显著优于现有的无监督和有监督的基 - 使用 LLM 嵌入进行文本聚类
通过使用大型语言模型(LLMs)的文本嵌入和聚类算法,该研究调查了文本聚类方法对数据集的影响,评估了嵌入对聚类结果的影响、通过摘要进行的维度降低的作用以及嵌入维度和摘要技术的调整。结果显示,LLMs 嵌入在捕捉结构化语言的细微差别方面表现出 - 增量层次文本聚类方法:综述
这篇论文旨在分析 2010 年至 2018 年期间发表的各种层次和增量聚类技术,以进一步组织和比较文本聚类的相关研究,从而提供对该领域研究的更好理解。
- 大型语言模型实现少样本聚类
本文研究了大语言模型在半监督聚类中改善聚类效果的应用方法,发现在输入特征和聚类过程中加入大语言模型可以获得显著的聚类效果改进,同时可以帮助用户在精度和成本之间进行权衡,实现所需聚类。
- ClusterLLM:将大语言模型用作文本聚类的指南
介绍了 ClusterLLM,一种新颖的文本聚类框架,它利用指导调整的大型语言模型(例如 ChatGPT)的反馈。通过与传统的无监督方法相比较,ClusterLLM 具有两个有趣的优势:(1)即使其嵌入不可访问,它也具有 LLM 的紧急能力 - 计算主题学:比较文学小说流派聚类算法
本论文旨在研究用于文学文本主题相似性捕捉的最佳方法,比较了三种步骤的算法:文本预处理,特征提取和度量特征列表之间的距离,在这些步骤中包括了各种选项,并测试了所有可能的组合,从而确定了用于计算主题分析的最佳和最差组合。
- 一种文本聚类的通用分类增强迭代学习框架:CEIL
提出了一种基于分类增强迭代学习架构的短文本聚类方法 CEIL,该方法使用语言模型和提出的 Category Disentangled Contrastive Clustering (CDCC)算法来迭代地改进特征表示。实验证明,CEIL 框 - 悲喜结合网络。根据结构特征分类戏剧流派
本文介绍了使用基于角色网络的文本聚类方法,利用 DraCor 数据库下载的戏剧文本,在 R 中进行分析后使用基于统计学的方法,如支持向量机来对喜剧和悲剧进行分类,并且表明这种方法在小样本量情况下也可以产生可靠的结果。
- ACLAdapterSoup: 利用权重平均来提高预训练语言模型的泛化能力
介绍了一种称为 AdapterSoup 的方法,通过对具有不同超参数的预训练语言模型适配器进行权重平均化从而提高在新领域的性能,同时使用文本聚类等方法选择哪些适配器进行组合,有效解决了在资源受限或领域特定问题下适配器训练的实践性问题。
- ClusTop: 一种无监督和集成的文本聚类和主题提取框架
本文提出了一个无监督文本聚类与主题提取框架 “ClusTop”,该框架将文本聚类和主题提取整合到一个统一的框架中,并可以同时实现高质量的聚类结果和从每个聚类中提取主题。该框架包括四个组件:增强语言模型训练、降维、聚类和主题提取。
- 大型语言模型作为文本挖掘的统一方法学
本文提出了一个新的文本挖掘方法:使用非常大的语言模型 (VLLM),该方法具有文本摘要、信息提取、文本聚类等功能,取代了传统的文本挖掘方法并面临着新的挑战。
- 无模式,无认知:关于文本聚类和主题建模可重复性和失真问题的调查
该综述分析了文本聚类和主题建模中无监督学习的初始化和异常值处理问题,提出了通用的术语定义,并总结了相关算法的理论背景。
- ACL多文档摘要的命题级聚类
本研究重新审视单词聚类方法,通过将子句命题分组,从而能更精确地对齐信息。我们的方法检测重要的命题,将它们聚类形成释义的群集,并通过文本融合为每个聚类生成代表性句子。在 DUC2004 和 TAC2011 数据集中,我们的总结方法在自动 RO - EMNLP对推特数据无监督文本表示方法的实证调查
本研究通过实验调查一系列著名的文本表示技术在嘈杂的 Twitter 数据上进行文本聚类的任务,并表明先进的模型不一定在 tweets 上表现最佳,需要在这一领域进行更多探索。
- ACL双向对抗训练的神经主题建模
提出了一种用于文本中的主题抽取的神经主题建模方法,Bidirectional Adversarial Topic (BAT) 模型,该模型使用双向对抗训练构建文档 - 主题分布和文档 - 单词分布之间的两向投影,并扩展了 Gaussian- - 通过一致改进比率相结合的评估指标,及其在聚类任务中的应用
本文介绍了一种名为 Unanimous Improvement Ratio(UIR)的度量方法,它不仅补充了标准指标组合方法的不足,还可以评估指标之间的交互作用,本文还通过实验验证了该方法的有效性,并将其作为精度和召回率之间权衡的一种预测器