混合蒸馏助于小型语言模型更好地进行推理
本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型,提出了一种名为 Sci-CoT 的两阶段框架,该框架通过分离生成推理步骤和推理答案的过程,在科学问答任务中利用推理步骤更有效地进行推理,使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。
Aug, 2023
通过将大型语言模型的数学推理能力压缩到亿级参数的小型语言模型中,不影响性能,以实现先进的大型语言模型民主化。我们提出了 EoTD(Equation-of-Thought Distillation)技术,将推理过程封装到基于方程的表示中,构建了 EoTD 数据集用于微调小型语言模型。此外,我们提出了 MTD(Mix Thoughts Distillation)框架,以增强小型语言模型的推理性能。实验结果表明,EoTD 显著提升了小型语言模型的推理能力,而 MTD 使这些模型达到了最先进的推理性能。
Jan, 2024
本研究提出对大型语言模型进行知识蒸馏的方法,利用链式思考等分步推理技术来促进推理能力并提高模型性能,通过分解、训练和求解等步骤实现问题的分解和求解,比链式思考方法性能更佳,可广泛应用于数学问题等多场景中。
Dec, 2022
大型语言模型(LLMs)在自然语言处理领域取得了显著的进展,但是考虑到它们的规模和计算需求,将这些模型实际部署在资源受限的环境中面临着巨大的挑战。为了解决这些问题,我们提出了一种双重方法:首先,我们引入了一种将 LLMs 中固有的自我评价能力提取到 SLMs 中的新方法,旨在减少错误推理和幻觉的不利影响。其次,我们建议采用综合的蒸馏过程,结合多种不同的链式思维和自我评价范式,确保更全面、更稳健地将知识转移至 SLMs 中。在三个自然语言处理基准测试上进行的实验表明,我们的方法显著提高了蒸馏 SLMs 的性能,并为开发与人类认知更接近的较小模型指明了方向。
Nov, 2023
本文介绍一种名为 “Distilling step-by-step” 的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注 / 非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。
May, 2023
本论文提出了一种新颖的基于表格推理的蒸馏方法,通过将大型语言模型(LLMs)蒸馏成专门为基于表格推理任务设计的小型模型,实验证明使用蒸馏数据进行微调的 0.22 亿参数模型(Flan-T5-base)在科学表格文本生成数据集(SciGen)上不仅显著提高了性能,而且超越了诸如 gpt-3.5-turbo 等特定 LLMs 的表现。
Sep, 2023
提出了 Program-aided Distillation(PaD)算法,该算法使用程序辅助推理强化可特化的模型,并通过自动化错误检查帮助它们克服错误的推理步骤,实验证明 PaD 具有比 LLMs 更高的训练效率,并能显著提高推理能力。
May, 2023
通过知识蒸馏,从多个大型教师语言模型中学习小型学生语言模型 TinyLLM,以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题,并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境,从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性,结果表明尽管模型尺寸较小,但 TinyLLM 可显著优于大型教师语言模型。
Feb, 2024
提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought(CoT)模型,它使用教师模型生成的合理解释来学习学生模型,并使用对抗性约束来保证学生模型保持一致性和反事实推理,实验结果表明,这种方法可以更好地生成有利于提高性能的 CoT 解释。
May, 2023
通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。
Jan, 2020