适应文本分类任务中性能与效率的权衡

ACLOct, 2022

适应文本分类任务中性能与效率的权衡

Performance-Efficiency Trade-Offs in Adapting Language Models to Text Classification Tasks

Laura Aina, Nikos Voskarides, Roi Blanco

TL;DR本文研究了不同的训练方法，使用预训练语言模型来进行文本分类。研究发现，在训练大型语言模型时，虽然标准微调和提示可以很好地运作，但是还有更有效的替代方法可以降低计算或数据成本。有趣的是，发现提示结合知识蒸馏可以同时降低计算和数据成本。

Abstract

pre-trained language models (LMs) obtain state-of-the-art performance when adapted to text classification tasks. However, when using such models in real-world applications, efficiency considerations are paramount

pre-trained language models text classification training procedures fine-tuning knowledge distillation

发现论文，激发创造

文本分类的语言模型：局部学习是否足够？

在这篇论文中，我们通过对 16 个文本分类数据集进行大规模评估研究，比较了零样本和少样本的大型语言模型与微调较小语言模型在文本分类方面的表现。结果表明，更小且更高效的语言模型的微调仍然能胜过大型语言模型的少样本方法，在文本分类方面有改进的空间。

Mar, 2024

优化预训练语言模型加速专题投资

Prompt Tuning 对我们通常用 Pretrained Language Models 进行的多标签文本分类任务有着更好的性能和计算效率。

Sep, 2023

在资源匮乏环境中通过大型语言模型的微调进行文本数据增强

通过细调教师大型语言模型产生和注释的数据，可以改善较小模型的下游性能，有时只需要原始训练数据的一小部分。

Oct, 2023

知识蒸馏与固定计算预算下的从零开始训练对比

相对于基于标准语言模型（LM）的从头开始预训练，知识蒸馏（KD）需要额外进行一次前向传递，通常所用的教师模型大大超过目标学生模型。本研究比较了从头开始预训练与几种 KD 策略在计算资源和预训练数据方面的表现，结果发现虽然从头开始预训练与固定计算资源下的普通 KD 相媲美，但更复杂的 KD 策略，即 TinyBERT 和 MiniLM，优于从头开始预训练。

Apr, 2024

训练专家语言模型带来的益处：比指令调整更胜一筹

本文研究发现，相对于使用多个任务的 multitask-prompted fine-tuning 方法进行指导调整的语言模型，仅针对单个任务进行专家模型的 fine-tuning 能够使模型在 11 个不同的未知数据集上以及 13 个 BIG-bench 基准测试数据集上平均准确率分别提高 3.20% 和 1.29%。此外，分别训练每个专家模型而不是单个 MT LM 进行 zero-shot 推断具有许多好处，包括避免负面任务转移，能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。

Feb, 2023

元学习差异性：为大型语言模型准备高效迁移

该论文提出了一种通过学习区分微调和适应性 PLMs 的方法，使用动态低秩重参数化和学习结构控制器来实现数据和参数高效的自适应，并在对话完成、摘要生成等任务上展示出明显提升。

Jul, 2022

PromptKD：通过提示调整深度语言模型来提供适合学生的知识

最近大型语言模型（LLMs）的进展引发了对推断成本的担忧，加大了对模型压缩研究的需求。尽管知识蒸馏（KD）是一种突出的方法，但对于生成性语言模型（如 LLMs）的 KD 研究相对较少，而在分类模型的 KD 中表现出有希望的学生友好知识蒸馏方法在生成性语言模型中尚未被探索。为了探索这种方法，我们提出了 PromptKD，一种简单而有效的方法，利用首次使用的提示调整方法在 KD 中实现生成性语言模型的学生友好知识转移。与需要对整个教师模型进行微调以提取学生友好知识的分类作品不同，PromptKD 通过添加少量的提示符令牌并仅调整提示来实现类似效果，并在学生的指导下进行。在使用 GPT-2 模型系列对遵循指令的数据集进行的广泛实验表明，PromptKD 实现了最先进的性能，并且仅添加了教师参数的 0.0007％作为提示。进一步的分析表明，蒸馏学生友好的知识有效地减轻了整个训练过程中的曝光偏差，从而提高了性能。

Feb, 2024

探索基于提示学习范式的小型语言模型用于高效的领域特定文本分类

在本研究中，我们调查了小语言模型（具有不到 10 亿参数）与 prompt-learning 范例相结合，在零样本和少样本场景下针对零售业中客户 - 代理商互动的领域特定文本分类的潜力。我们的评估结果显示，在少样本设置下进行基于提示的模型微调时，220M 参数的典型小语言模型 T5-base 可以在有限的标记数据（高达全数据的 15%）上实现约 75% 的准确性，显示了小语言模型与 prompt-learning 的巨大潜力。基于此，我们进一步验证了主动少样本抽样和 prompt-learning 流程中的集成策略对显著性能提升的有效性。此外，在固定模型的零样本设置中，我们强调了一个关键的观察结果，即尽管具有约 1540B 参数的 GPT-3.5-turbo 可以达到 55.16% 的准确性，但当仅有 0.5% 参数的 FLAN-T5-large 使用经过优化的提示时，其准确性超过 31%，相比使用未经优化提示的准确性提升了近 13%。我们的发现强调了使用小语言模型进行 prompt-learning 的分类任务中的潜力，强调了主动少样本抽样和集成策略在少样本设置中的好处，并强调了零样本设置中提示工程的重要性。

Sep, 2023

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

针对预训练语言模型的标签正则化微调研究

该研究旨在研究标签正则化技术在 NLP 中的使用以及它是否需要老师网络进行指导，经过对 BERT、RoBERTa 和 GPT 等 PLMs 进行 600 多次试验，发现预训练本身已经具有正则化的作用，因此在 fine-tuning 时，添加额外的标签正则化并不必要。

May, 2022