教授小型语言模型推理
通过知识蒸馏,从多个大型教师语言模型中学习小型学生语言模型 TinyLLM,以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题,并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境,从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性,结果表明尽管模型尺寸较小,但 TinyLLM 可显著优于大型教师语言模型。
Feb, 2024
本文介绍了一种名为 Symbolic Chain-of-Thought Distillation (SCoTD) 的方法,在巨大的语言模型的注释和参数的指导下,训练参数远低于 50B 的较小模型,在几种常识基准测试中证明了在有监督和少样本学习环境下可以提高性能。
Jun, 2023
我们引入了一种新颖的框架,LM-Guided CoT,它利用轻量级(即 <1B)语言模型(LM)指导黑盒大型(即> 10B)LM 在推理任务中的工作。具体而言,轻量级 LM 首先为每个输入实例生成理论依据,接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效,只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型,其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明,我们的方法在回答预测准确性方面优于所有基准方法。我们还发现,强化学习有助于模型生成更高质量的理论依据,并提高问答的性能。
Apr, 2024
本研究提出了 Fine-tune-CoT 方法,该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型,从而在较小的模型中实现了大量的推理能力优化。
Dec, 2022
本论文提出了一种新颖的基于表格推理的蒸馏方法,通过将大型语言模型(LLMs)蒸馏成专门为基于表格推理任务设计的小型模型,实验证明使用蒸馏数据进行微调的 0.22 亿参数模型(Flan-T5-base)在科学表格文本生成数据集(SciGen)上不仅显著提高了性能,而且超越了诸如 gpt-3.5-turbo 等特定 LLMs 的表现。
Sep, 2023
通过 chain of thought prompting 方法,在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能,甚至超过 fine-tuned GPT-3。
Jan, 2022
提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought(CoT)模型,它使用教师模型生成的合理解释来学习学生模型,并使用对抗性约束来保证学生模型保持一致性和反事实推理,实验结果表明,这种方法可以更好地生成有利于提高性能的 CoT 解释。
May, 2023
最近大型语言模型(LLMs)因其执行复杂的推理任务的能力而引起了相当大的关注,但是大部分现有的增强这种能力的方法都过于依赖数据驱动的方法,而忽视了模型推理能力的结构方面。在我们的研究中,我们发现 LLMs 能够很好地处理个别的推理步骤,却在整个推理链上保持一致性方面遇到困难。为了解决这个问题,我们在每个推理步骤的开始引入了 “规划标记”,作为模型的指南。然后,这些标记嵌入与模型的其余参数一起进行微调。我们的方法所需的可训练参数增加微不足道(仅占总参数的 0.001%),可以通过完全微调或更加参数高效的方案来实施。我们通过将其应用于三种不同的 LLMs,并对三个数学问题数据集进行了评估,展示了我们方法的有效性,相对于原始的链式思维微调基准,取得了显著的准确性提升。
Oct, 2023