本研究提出对大型语言模型进行知识蒸馏的方法,利用链式思考等分步推理技术来促进推理能力并提高模型性能,通过分解、训练和求解等步骤实现问题的分解和求解,比链式思考方法性能更佳,可广泛应用于数学问题等多场景中。
Dec, 2022
本文探讨通过知识蒸馏将大型语言模型的推理能力迁移至小于1000亿参数的模型,实现任务的表现提升,对算术、常识和符号推理数据集效果显著,例如在PaLM-540B生成的思考链上进行微调后,T5 XXL在GSM8K的准确率从8.11%提高至21.99%。
提出了知识增强推理提炼(KARD)这一新颖的方法,以从外部知识库检索的增强知识fine-tune小型LM,来生成 rationale,并且进一步提出了神经重新排序器以获取与理性产生相关的文档。该方法在知识密集型推理数据集上显著提高了小型T5和Flan-T5模型的性能。
May, 2023
通过Multi-CoT一致知识蒸馏(MCC-KD)方法,我们提出了一种提升大型语言模型的推理能力、实现多样性和一致性的方法,并验证其在数学推理和常识推理的基准测试中的优秀性能和鲁棒泛化能力。
Oct, 2023
通过Mixed Distillation框架,将大语言模型的Program-of-Thought和Chain-of-Thought的能力转移到较小模型中,提高较小模型的性能,优于传统蒸馏方法,并在多路径推理中实现了令人印象深刻的准确度表现。
Dec, 2023
通过知识蒸馏,从多个大型教师语言模型中学习小型学生语言模型TinyLLM,以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题,并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境,从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性,结果表明尽管模型尺寸较小,但 TinyLLM 可显著优于大型教师语言模型。
Feb, 2024
KPOD框架通过利用遮罩学习来鼓励学生精确模仿关键点标记,并通过渐进式教学策略逐步扩展到整个论证过程,实现了来自大型语言模型的推理能力向较小学生模型的转移,取得了远超之前方法的广泛实验结果。
May, 2024
使用基于错误的驱动关键推理步骤蒸馏(EDIT)方法,可以更有效地帮助小型语言模型学习重要的推理步骤,而不仅仅是简单的微调,验证了其在基准推理数据集上的有效性。
大语言模型(LLMs)在各种自然语言处理任务中有了显著的进展,但部署仍然需要大量的计算资源。我们介绍了一种名为Multi-Stage Balanced Distillation(BalDistill)的框架,通过在固定的计算资源预算内动态选择代表性的正样本和合成尾部样本,平衡训练数据,并在各种长尾数据集上取得了最先进的性能,提高了蒸馏模型的效率和效果。
Jun, 2024
通过将大型语言模型分解为更小的语言模型,通过程序或关键点推导,改善了语义理解错误,提高了数学推理任务的性能。
Jul, 2024