不可能的蒸馏：从低质量模型到高质量数据集与模型，用于摘要和释义

May, 2023

不可能的蒸馏：从低质量模型到高质量数据集与模型，用于摘要和释义

Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing

Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu...

TL;DR该论文提出了一种语言模型的教学方法，通过 Impossible Distillation 实现对原模型进行无监督的特定任务的 dataset 压缩，并通过该数据集训练出高质量的学生模型，在不需要海量数据、评测和人工干预的情况下，获得比 175B 参数 GPT-3 更好的性能的模型，以及包括 3.4M 个句子摘要和释义的高质量数据集 DIMSUM+。

Abstract

It is commonly perceived that the strongest language models (LMs) rely on a combination of massive scale, instruction data, and human feedback to perform specialized tasks -- e.g. summarization and paraphrasing, without supervision. In this paper, we propose that →

language models task-specific dataset impossible distillation distilled model dimsum+

发现论文，激发创造

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

无参考摘要的信息论蒸馏

InfoSumm 是一种基于信息理论目标的新型框架，通过互信息来蒸馏出一个强大的摘要器，不依赖于大规模语言模型的能力或人工编写的参考文献，参数仅为 568M，性能竞争力强，在人工评估中超过了领域内监督模型，更胜一筹于 ChatGPT 的可控摘要。

Mar, 2024

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

DiLM：文本级数据集蒸馏中的将数据集蒸馏为语言模型

通过训练一个语言模型生成信息丰富的合成训练样本作为文本数据，我们提出了一种新颖的文本数据集精炼方法，称为 Distilling dataset into Language Model (DiLM)。我们在各种文本分类数据集上评估了 DiLM，并展示了从 DiLM 中获得的合成数据集胜过当前核心集选择方法的结果。DiLM 在训练不同类型的模型和大型语言模型的上下文学习中取得了显著的泛化性能。

Mar, 2024

婴儿骆驼：从小数据集上训练的教师集合中进行知识蒸馏，无性能惩罚

我们提出了一种解决 BabyLM 挑战的方法，目标是提高语言模型的样本效率。我们在一个有发展潜力的 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成模型，然后将其蒸馏成一个小型的 58M 参数 LLaMA 模型，它在性能上超过了两个教师模型以及没有蒸馏训练的类似模型。这表明，蒸馏不仅可以保持教师模型的全部性能，在后者被训练在足够小的数据集上时，还可以超过教师模型的性能，并且比直接训练要表现得更好。

Aug, 2023

预训练模型摘要精馏

使用三种不同的压缩学生模型的方法（直接知识蒸馏、伪标签蒸馏和收缩和微调），对当前和过去的最先进的 PEGASUS 和 BART 模型进行压缩蒸馏，在 CNN / DailyMail 数据集上 SFT 方法表现最佳，在更抽象的 XSUM 数据集上伪标签蒸馏方法表现更好。

Oct, 2020

子目标蒸馏：提升小型语言代理的方法

通过层次化代理模型和知识蒸馏，将大型语言模型的性能通过转移学习到小型语言模型，在科学世界的多任务交互文本环境中胜过其他大型语言模型方法，从而提高了效率。

May, 2024

无需参考文献的句子摘要生成：通过符号知识蒸馏实现更精细的控制

本研究提出了一种名为 Referee 的句子摘要框架，可无需金标准摘要进行训练，同时允许直接控制压缩比率。通过符号知识蒸馏的概念框架，从预训练语言模型中提炼潜在知识，进一步纯化、过滤和迭代，创造了高质量的数据集和摘要模型，大幅提升了摘要的可控性和压缩效率。

Oct, 2022

参数高效的多样化语义转换：基于序列级知识蒸馏的方法

本研究通过使用大型语言模型（LLMs）并应用序列级知识蒸馏方法，开发了三种不同的模型用于释义领域中的改写任务，这些模型具有更快的推理时间，能够生成质量相当的多样化释义，并在人类评估中表现出仅有 4% 的性能下降。

Apr, 2024

LLMs 的有效表格推理能力提炼

本论文提出了一种新颖的基于表格推理的蒸馏方法，通过将大型语言模型（LLMs）蒸馏成专门为基于表格推理任务设计的小型模型，实验证明使用蒸馏数据进行微调的 0.22 亿参数模型（Flan-T5-base）在科学表格文本生成数据集（SciGen）上不仅显著提高了性能，而且超越了诸如 gpt-3.5-turbo 等特定 LLMs 的表现。

Sep, 2023