IDoFew: 使用语言模型的双聚类中间训练进行少标签文本分类

Jan, 2024

IDoFew: 使用语言模型的双聚类中间训练进行少标签文本分类

IDoFew: Intermediate Training Using Dual-Clustering in Language Models for Few Labels Text Classification

Abdullah Alsuhaibani, Hamad Zogan, Imran Razzak, Shoaib Jameel, Guandong Xu

TL;DR通过使用两阶段中间聚类和后续微调的方法，我们提出了一种新颖的模型IDoFew，它可靠地建模伪标签，从而减少预测错误，并且相对于强大的对比模型有显著的改进。

Abstract

language models such as Bidirectional Encoder Representations from Transformers (bert) have been very effective in various Natural Language Processing (NLP) and text mining tasks including →

发现论文，激发创造

利用深度表示学习进行短文本半监督聚类

提出了一种半监督的短文本聚类方法，使用神经网络将文本表示为分布式向量，并使用少量标记数据来指定聚类目标，并通过设计新的目标将表示学习过程和k均值聚类过程结合在一起优化，最后迭代地用已标记和未标记的数据来优化整个目标，得到了比其他文本聚类方法更好的实验结果。

Feb, 2016

仅使用标签名称的文本分类：基于语言模型的自训练方法

本文探讨了只使用标签名训练分类模型的潜力，使用预训练的神经语言模型作为文档分类的表示学习模型，通过自学习的方式实现使用未标注数据实现对话题和情感分类超过90%的精确度。

Oct, 2020

聚类与调参：提高文本分类的冷启动性能

本文提出一种方法，通过在预训练和微调阶段之间添加一个中间的无监督分类任务来提高文本分类任务的性能，该任务使用聚类作为中间任务，并表明这种额外的分类阶段可以显著提高性能。

Mar, 2022

使用类别描述标注的零样本文本分类训练的好处

本研究提出了一种简单的方法来进一步提高零-shot分类准确性，即利用精心策划的微调数据集描述任务的标签，进而在多个文本域中获得强大的预测模型。

May, 2023

针对法律和生物医学文本的编码器-解码器多标签分类方法探究

本研究比较了四种多标签分类方法，其中两种基于编码器，两种基于编码器-解码器。结果表明，在多个数据集上使用编码器-解码器方法比仅编码器表现更好，其非自回归编码器-解码器方法获得了最优表现。

May, 2023

ClusterLLM：将大语言模型用作文本聚类的指南

介绍了ClusterLLM，一种新颖的文本聚类框架，它利用指导调整的大型语言模型（例如ChatGPT）的反馈。通过与传统的无监督方法相比较，ClusterLLM具有两个有趣的优势：（1）即使其嵌入不可访问，它也具有LLM的紧急能力；（2）通过文本指令和/或少量注释数据，他可以理解用户在聚类方面的偏好。

May, 2023

大型语言模型实现少样本聚类

本文研究了大语言模型在半监督聚类中改善聚类效果的应用方法，发现在输入特征和聚类过程中加入大语言模型可以获得显著的聚类效果改进，同时可以帮助用户在精度和成本之间进行权衡，实现所需聚类。

Jul, 2023

德文文本嵌入聚类基准

对不同领域中的聚类德语文本嵌入性能进行了基准评估，结果表明使用单语和多语模型进行评估的性能强劲且嵌入降维可以进一步改善聚类效果，另外，对德语 BERT 模型进行了持续预训练实验，结果显示在短文本中可能实现显著的性能改善。

Jan, 2024

文本分类的语言模型：局部学习是否足够？

在这篇论文中，我们通过对16个文本分类数据集进行大规模评估研究，比较了零样本和少样本的大型语言模型与微调较小语言模型在文本分类方面的表现。结果表明，更小且更高效的语言模型的微调仍然能胜过大型语言模型的少样本方法，在文本分类方面有改进的空间。

Mar, 2024

将文本聚类视为使用大语言模型的分类

本研究解决了文本聚类在人工标注成本高昂情况下的有效性问题，提出了一种新的框架，将文本聚类转化为分类任务，利用大语言模型（LLM）的上下文学习能力。实验结果表明，该框架在无需复杂微调或聚类算法的情况下，其性能与最先进的嵌入方法相当或更优。

Sep, 2024