只用 LLM 来按照用户指令培养文本分类器

Apr, 2024

只用 LLM 来按照用户指令培养文本分类器

Incubating Text Classifiers Following User Instruction with Nothing but LLM

Letian Peng, Jingbo Shang

TL;DR我们的研究旨在通过用户指令生成文本分类数据，从而可以训练一个小型文本分类器，而无需任何人工注释或原始语料库。我们的提出的孵化器是第一个可以处理复杂甚至是相互依赖类别 (如 “教育家发表的 TED 演讲” 和 “其他”) 的框架，通过在分类数据集上获得的指导数据映射和 HuggingFace 上的描述，以及通过 GPT-4 进行上下文增强来首先对 LLM 进行调整。然后，我们在语义文本嵌入的簇中心上训练孵化器，以强调生成中的一致性和语义多样性。实验表明，与直接基于 LLM 的推理和通过提示工程生成训练数据的强基线相比，孵化器在各种分类任务上表现出色，并且能够考虑标签依赖性和用户偏好，并通过孵化多个分类器实现逻辑文本挖掘。

Abstract

In this paper, we aim to generate text classification data given arbitrary class definitions (i.e., user instruction), so one can train a small text classifier without any human annotation or raw corpus. Compared with pioneer attempts, our proposed →

text classification incubator llm classification tasks label dependency

发现论文，激发创造

自动注释中的知识蒸馏：由 LLM 生成的训练标签进行监督文本分类

使用生成的大型语言模型生成的标签对监督文本分类模型进行微调，与使用人工标注的标签相比表现相当，是一种快速、高效和经济有效的构建监督文本分类器的方法。

Jun, 2024

利用自然语言推理构建高效的通用分类器

通过自然语言推理作为通用分类任务，利用较小的 BERT 模型训练出的通用分类器在 33 个数据集上训练，有 389 种不同类别，能在零样本和少样本学习中取得更高的性能。

Dec, 2023

基于 LLM 监督的零训练语义分割

该论文介绍了一种利用大型语言模型（LLM）进行文本监督语义分割的新方法，该方法通过生成更准确的类别表示来提供多样化的分割结果，并通过合并不同的子类描述符的分割图确保对测试图像的更全面的表示。经过三个标准基准的全面实验，我们的方法比传统的文本监督语义分割方法表现出更好的性能。

Mar, 2024

通过 LLM 驱动的主动学习和人工标注来增强文本分类

该研究引入了一种新的方法，将人工标注和大语言模型（LLMs）与主动学习框架结合，以在数据标注的成本效益和分类性能之间取得最佳平衡。实证结果表明，在降低数据标注成本的同时，模型准确性得到了保持或提高。

Jun, 2024

回答即所需：通过问题回答实现指令跟随的文本嵌入

本文提出了 InBedder，它通过在抽象的问答任务上对语言模型进行微调，实现了按照指令建立的嵌入模型，通过我们提出的指令感知测试和指令稳健性测试，扩展到大型语言模型和较小的编码器模型时，InBedder 展示了显著改进的指令遵循能力，并通过将不同指令应用于相同语料库的聚类结果的定性分析表明了高度可解释性。

Feb, 2024

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

LLMEmbed: 文本分类中轻量级 LLM 的真实功能的再思考

通过轻量级的大型语言模型，我们提出一种简单而有效的迁移学习策略 LLMEmbed 来改善文本分类的性能，并在公开数据集上的广泛实验验证了其强大的性能，相较于基于更大型的语言模型（如 GPT-3）和复杂的提示策略，我们的方法仅使用 4% 的模型参数、1.8% 的能耗和 1.5% 的运行时间即可达到充分的准确性。

Jun, 2024

TELEClass: 在最小监督下的分类法丰富和 LLM 增强的分层文本分类

通过自动丰富标签分类法和利用大型语言模型来进行弱监督的分层文本分类，我们的方法 TELEClass 在两个公共数据集上表现优于先前的弱监督分层文本分类方法和基于零样本提示的大型语言模型方法。

Feb, 2024

通过隐式分类将令人印象深刻的 LMM 生成文本识别为令牌预测

本文介绍了一种新颖的方法，用于识别可能参与文本生成的大规模语言模型（LLMs）。我们采用了一种将分类任务重新构建为下一个标记预测任务的方法，并直接微调基本语言模型来执行此任务。我们使用 Text-to-Text Transfer Transformer（T5）模型作为实验的基础，并将我们的方法与利用隐藏状态进行分类的更直接方法进行了比较。评估结果显示了我们的方法在文本分类任务中的卓越性能，突出了其简单性和效率。此外，对我们模型提取的特征进行的可解释性研究揭示了其能够在没有显式分类器的情况下区分不同 LLMs 之间的独特写作风格。我们还收集了一个名为 OpenLLMText 的数据集，其中包含来自人类和 LLMs（包括 GPT3.5、PaLM、LLaMA 和 GPT2）的约 340k 个文本样本。

Nov, 2023

大型语言模型中利用标签变异进行零样本文本分类

使用 5 种最先进的大型语言模型（LLMs）作为 “标注者” 在多个任务上进行评估，并比较其与人类标注的优缺点。总体而言，尽管 LLMs 在某些任务上表现出色，但它们无法替代人类标注的需求。

Jul, 2023