蒸馏上下文中的学习

Sep, 2022

Learning by Distilling Context

Charlie Snell, Dan Klein, Ruiqi Zhong

TL;DR本文提出了上下文蒸馏的方法，以内化语言模型通过上下文提示或草稿本获得的性能早期；该方法可以内化抽象任务说明，步骤推理以及具体训练示例，从而有效地训练语言模型。

Abstract

language models significantly benefit from context tokens, such as prompts or scratchpads. They perform better when prompted with informative instructions, and they acquire new reasoning capabilities by generatin

language models context distillation training signals reasoning capabilities internalizing gains

发现论文，激发创造

在上下文中的学习蒸馏：转移预训练语言模型的少样本学习能力

通过 in-context learning distillation 技术，将大型已预训练的语言模型的能力转移至小型模型，同时结合语言建模目标，提高了多任务学习和少样本学习的性能，实验结果表明，多任务学习下拥有语言建模目标的 in-context learning objectives 可以取得最佳效果。

Dec, 2022

通过蒸馏将知识更新传递给 LM

文章介绍了建立语言模型的知识库的更新方法，通过上下文蒸馏的方式对实体进行继承知识，以良好的效果进行更新，而不会影响到性能。

Jun, 2023

语言模型压缩中的语言上下文提取

本文提出了一种新的语言表示学习的知识蒸馏方法，通过单词关系和层变换关系传递上下文知识，无需限制教师和学生的架构变化，验证了该方法在语言理解任务的各种架构和 DynaBERT 等自适应尺寸剪枝方法的挑战性基准上的有效性。

Sep, 2021

大规模语言模型的环境化蒸馏用于知识图谱补全

通过引入上下文化蒸馏策略，将大型语言模型转化为更加丰富的上下文片段，进而通过引入定制的辅助任务，使得较小的知识图谱补全模型能够吸收这些丰富的三元组，并在各种数据集和知识图谱补全技术的综合评估中展现出卓越的性能提升和适应性，这为路径选择和适当的蒸馏任务提供了可解释性和洞察力。

Jan, 2024

利用零射击提示进行高效的语言模型蒸馏

本文介绍了一种新颖的方法，可以将 LLMs 高效地提炼成更小的、面向特定应用的模型，显著降低运营成本和人工劳动。该方法利用 LLMs 的推理能力为无标签数据生成标签和自然语言解释，从而在有限数据和计算资源情况下增强模型的微调和提炼效果。其中关键贡献包括使用零样本提示获取教师模型的解释，减少手工制作的小样本示例的需求，并降低令牌数，这直接转化为主要技术公司 LLM API 的按令牌计费模式下的成本节约。此外，本文还研究了解释特性对提炼效率的影响，并证明了即使在整个数据集上未应用理由增强时也几乎不会导致性能损失，从而进一步减少了令牌数量。这项研究是朝向最小化人工干预、高效训练特定任务模型的一步，提供了大幅降低成本并保持甚至增强性能的可能性。

Mar, 2024

对话回复生成的上下文依赖指令调整

通过上下文指导生成回复的语言模型在多轮对话生成任务中取得了令人瞩目的成果，通过对指令进行微调并将其与输入对齐，可以显著提高生成性能。

Nov, 2023

指令归纳：从少量样本到自然语言任务描述

该研究论文证明使用 in-context learning 可让大型语言模型显式推断潜在任务，通过自然语言生成指令，InstructGPT 的表现达到了人类的 65.7％，建议指令感应可能是一种学习范例。

May, 2022

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

教学助理在低预算场景中提高从不完美教师模型的知识蒸馏

通过提出一个三组件框架，利用自洽性、鉴别性和教师的不确定性作为学生培训的三种信号，我们在资源受限、教师性能不完美的场景中提高了样本效率。实验证明，相较于没有任何信号进行微调的情况，我们提出的两阶段框架平均带来了 20.79% 左右的相对提升，适用于四个复杂推理任务。

Jun, 2024

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023