提出了一种半监督的短文本聚类方法,使用神经网络将文本表示为分布式向量,并使用少量标记数据来指定聚类目标,并通过设计新的目标将表示学习过程和k均值聚类过程结合在一起优化,最后迭代地用已标记和未标记的数据来优化整个目标,得到了比其他文本聚类方法更好的实验结果。
Feb, 2016
本文探讨了只使用标签名训练分类模型的潜力,使用预训练的神经语言模型作为文档分类的表示学习模型,通过自学习的方式实现使用未标注数据实现对话题和情感分类超过90%的精确度。
Oct, 2020
本文提出一种方法,通过在预训练和微调阶段之间添加一个中间的无监督分类任务来提高文本分类任务的性能,该任务使用聚类作为中间任务,并表明这种额外的分类阶段可以显著提高性能。
Mar, 2022
本研究提出了一种简单的方法来进一步提高零-shot分类准确性,即利用精心策划的微调数据集描述任务的标签,进而在多个文本域中获得强大的预测模型。
May, 2023
本研究比较了四种多标签分类方法,其中两种基于编码器,两种基于编码器-解码器。结果表明,在多个数据集上使用编码器-解码器方法比仅编码器表现更好,其非自回归编码器-解码器方法获得了最优表现。
介绍了ClusterLLM,一种新颖的文本聚类框架,它利用指导调整的大型语言模型(例如ChatGPT)的反馈。通过与传统的无监督方法相比较,ClusterLLM具有两个有趣的优势:(1)即使其嵌入不可访问,它也具有LLM的紧急能力;(2)通过文本指令和/或少量注释数据,他可以理解用户在聚类方面的偏好。
本文研究了大语言模型在半监督聚类中改善聚类效果的应用方法,发现在输入特征和聚类过程中加入大语言模型可以获得显著的聚类效果改进,同时可以帮助用户在精度和成本之间进行权衡,实现所需聚类。
Jul, 2023
对不同领域中的聚类德语文本嵌入性能进行了基准评估,结果表明使用单语和多语模型进行评估的性能强劲且嵌入降维可以进一步改善聚类效果,另外,对德语 BERT 模型进行了持续预训练实验,结果显示在短文本中可能实现显著的性能改善。
Jan, 2024
在这篇论文中,我们通过对16个文本分类数据集进行大规模评估研究,比较了零样本和少样本的大型语言模型与微调较小语言模型在文本分类方面的表现。结果表明,更小且更高效的语言模型的微调仍然能胜过大型语言模型的少样本方法,在文本分类方面有改进的空间。
Mar, 2024
本研究解决了文本聚类在人工标注成本高昂情况下的有效性问题,提出了一种新的框架,将文本聚类转化为分类任务,利用大语言模型(LLM)的上下文学习能力。实验结果表明,该框架在无需复杂微调或聚类算法的情况下,其性能与最先进的嵌入方法相当或更优。
Sep, 2024