文本分类的语言模型：局部学习是否足够？

COLINGMar, 2024

文本分类的语言模型：局部学习是否足够？

Language Models for Text Classification: Is In-Context Learning Enough?

Aleksandra Edwards, Jose Camacho-Collados

TL;DR在这篇论文中，我们通过对 16 个文本分类数据集进行大规模评估研究，比较了零样本和少样本的大型语言模型与微调较小语言模型在文本分类方面的表现。结果表明，更小且更高效的语言模型的微调仍然能胜过大型语言模型的少样本方法，在文本分类方面有改进的空间。

Abstract

Recent foundational language models have shown state-of-the-art performance in many NLP tasks in zero- and few-shot settings. An advantage of these models over more standard approaches based on →

foundational language models zero- and few-shot settings text classification fine-tuning prompting techniques

发现论文，激发创造

探索基于提示学习范式的小型语言模型用于高效的领域特定文本分类

在本研究中，我们调查了小语言模型（具有不到 10 亿参数）与 prompt-learning 范例相结合，在零样本和少样本场景下针对零售业中客户 - 代理商互动的领域特定文本分类的潜力。我们的评估结果显示，在少样本设置下进行基于提示的模型微调时，220M 参数的典型小语言模型 T5-base 可以在有限的标记数据（高达全数据的 15%）上实现约 75% 的准确性，显示了小语言模型与 prompt-learning 的巨大潜力。基于此，我们进一步验证了主动少样本抽样和 prompt-learning 流程中的集成策略对显著性能提升的有效性。此外，在固定模型的零样本设置中，我们强调了一个关键的观察结果，即尽管具有约 1540B 参数的 GPT-3.5-turbo 可以达到 55.16% 的准确性，但当仅有 0.5% 参数的 FLAN-T5-large 使用经过优化的提示时，其准确性超过 31%，相比使用未经优化提示的准确性提升了近 13%。我们的发现强调了使用小语言模型进行 prompt-learning 的分类任务中的潜力，强调了主动少样本抽样和集成策略在少样本设置中的好处，并强调了零样本设置中提示工程的重要性。

Sep, 2023

EXnet：无数据文本分类的高效上下文学习

本文介绍 EXnet 模型，以进行上下文学习，通过提供例子来促进跨任务泛化，特别是针对文本分类任务。

May, 2023

预训练语言模型为什么比零 / 少样本学习者更好？

本文提出了一种理论框架，以解释在零 / 少样本场景下提示学习的功效，我们进一步假设语言差异可以衡量提示的质量，并且通过基于 perplexity 的注释无关模板选择方法，使我们能够提前预测提示性能。

Sep, 2022

使用指令微调语言模型的自动化少样本分类

通过使用指导微调的语言模型，构建了一个用于 few-shot 学习的方法，名为 AuT-Few，该方法可以自动选择适合的任务指令，并实现了较强的 prompt 稳健性和良好的分类性能。

May, 2023

Gen-Z: 基于上下文化标签描述的生成式零样本文本分类

Gen-Z 是一种用于零食文本分类的生成提示框架，通过在标签的自然语言描述上依赖语言模型的可能性来改善任务性能，并在多个标准分类基准上展现了优越性能。

Nov, 2023

挖掘式零样本学习：基于语言模型的搜索方法

本文提出了一种使用正则表达式从未标记语料库中挖掘标记示例的替代模板提示方法，通过微调预训练模型，相比模板提示方法更加灵活和可解释，在使用相似模板时在多个任务中表现出更好的性能。

Oct, 2022

多标签文本分类的上下文学习

利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。

Sep, 2023

Few-shot Fine-tuning vs. In-context Learning: 公平比较和评估

本文比较了预先训练的语言模型的任务适应的两种替代策略：few-shot fine-tuning 和 in-context learning。通过控制模型、样本数量和参数数量，研究表明 fine-tuned language models 确实可以很好地泛化到 domain 外。虽然两种方法的表现存在巨大变化，并且取决于模型大小和样本数量等属性，说明鲁棒的任务适应仍然是一个挑战。

May, 2023

零样本分类中的提示复杂度导航：计算社会科学中大型语言模型的研究

在计算社会科学分类任务中，评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果，并研究了各种提示策略的影响。发现在零次设置下，当前 LLMs 无法与较小的经过微调的基线变压器模型（如 BERT）的性能匹配。此外，发现不同的提示策略可以显着影响分类准确性，准确性和 F1 分数的差异超过 10％。

May, 2023

自训练的零样本文本分类

本文提出一种基于自训练方法的插入式零样本文本分类技术，无需领域专业知识或经验，仅需要类别标签和无标记数据，可显著提高性能，适用于各种文本分类任务。

Oct, 2022