Apr, 2024

只用 LLM 来按照用户指令培养文本分类器

TL;DR我们的研究旨在通过用户指令生成文本分类数据,从而可以训练一个小型文本分类器,而无需任何人工注释或原始语料库。我们的提出的孵化器是第一个可以处理复杂甚至是相互依赖类别 (如 “教育家发表的 TED 演讲” 和 “其他”) 的框架,通过在分类数据集上获得的指导数据映射和 HuggingFace 上的描述,以及通过 GPT-4 进行上下文增强来首先对 LLM 进行调整。然后,我们在语义文本嵌入的簇中心上训练孵化器,以强调生成中的一致性和语义多样性。实验表明,与直接基于 LLM 的推理和通过提示工程生成训练数据的强基线相比,孵化器在各种分类任务上表现出色,并且能够考虑标签依赖性和用户偏好,并通过孵化多个分类器实现逻辑文本挖掘。