蒸馏上下文中的学习
通过 in-context learning distillation 技术,将大型已预训练的语言模型的能力转移至小型模型,同时结合语言建模目标,提高了多任务学习和少样本学习的性能,实验结果表明,多任务学习下拥有语言建模目标的 in-context learning objectives 可以取得最佳效果。
Dec, 2022
本文提出了一种新的语言表示学习的知识蒸馏方法,通过单词关系和层变换关系传递上下文知识,无需限制教师和学生的架构变化,验证了该方法在语言理解任务的各种架构和 DynaBERT 等自适应尺寸剪枝方法的挑战性基准上的有效性。
Sep, 2021
通过引入上下文化蒸馏策略,将大型语言模型转化为更加丰富的上下文片段,进而通过引入定制的辅助任务,使得较小的知识图谱补全模型能够吸收这些丰富的三元组,并在各种数据集和知识图谱补全技术的综合评估中展现出卓越的性能提升和适应性,这为路径选择和适当的蒸馏任务提供了可解释性和洞察力。
Jan, 2024
本文介绍了一种新颖的方法,可以将 LLMs 高效地提炼成更小的、面向特定应用的模型,显著降低运营成本和人工劳动。该方法利用 LLMs 的推理能力为无标签数据生成标签和自然语言解释,从而在有限数据和计算资源情况下增强模型的微调和提炼效果。其中关键贡献包括使用零样本提示获取教师模型的解释,减少手工制作的小样本示例的需求,并降低令牌数,这直接转化为主要技术公司 LLM API 的按令牌计费模式下的成本节约。此外,本文还研究了解释特性对提炼效率的影响,并证明了即使在整个数据集上未应用理由增强时也几乎不会导致性能损失,从而进一步减少了令牌数量。这项研究是朝向最小化人工干预、高效训练特定任务模型的一步,提供了大幅降低成本并保持甚至增强性能的可能性。
Mar, 2024
该研究论文证明使用 in-context learning 可让大型语言模型显式推断潜在任务,通过自然语言生成指令,InstructGPT 的表现达到了人类的 65.7%,建议指令感应可能是一种学习范例。
May, 2022
通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。
Jan, 2020
通过提出一个三组件框架,利用自洽性、鉴别性和教师的不确定性作为学生培训的三种信号,我们在资源受限、教师性能不完美的场景中提高了样本效率。实验证明,相较于没有任何信号进行微调的情况,我们提出的两阶段框架平均带来了 20.79% 左右的相对提升,适用于四个复杂推理任务。
Jun, 2024
本文介绍一种名为 “Distilling step-by-step” 的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注 / 非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。
May, 2023