SCOTT: 自洽思维串讲压缩
链式思维 (Chain of Thought) 的理由序列已被证明能在问题回答等任务中有效提高语言模型的性能。最近的研究表明,这种理由序列在模型蒸馏中也能起到作用。通过将这些序列(由大型 “教师” 模型生成)与目标标签一同用于微调小型 “学生” 模型,能显著提高性能。本研究旨在探讨为何以及如何这种额外的训练信号能在模型蒸馏中发挥作用,并报道了一些有趣的结果。
Jun, 2024
本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型,提出了一种名为 Sci-CoT 的两阶段框架,该框架通过分离生成推理步骤和推理答案的过程,在科学问答任务中利用推理步骤更有效地进行推理,使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。
Aug, 2023
提出了一种知识蒸馏框架,利用大型语言模型作为不可靠的教师,并通过对齐过滤器选择性地提炼一致和有帮助的合理性,以实现对话语境中的多跳推理。进一步提出了 DOCTOR,一种可靠的 DialOgue Chain-of-ThOught Reasoner,为响应生成提供可靠的逻辑基础,通过广泛的实验表明,使用 DOCTOR 提供的高质量合理性显著提高了对话代理的响应质量。
Oct, 2023
本文介绍了一种名为 Symbolic Chain-of-Thought Distillation (SCoTD) 的方法,在巨大的语言模型的注释和参数的指导下,训练参数远低于 50B 的较小模型,在几种常识基准测试中证明了在有监督和少样本学习环境下可以提高性能。
Jun, 2023
提出 Faithful CoT 框架以实现准确性和真实性的协同作用,通过将推理任务分解为翻译和问题求解两个阶段,使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。
Jan, 2023
大语言模型通过教师 - 学生学习实现对较小模型的推理增强,但传统方法在领域内推理表现优秀的同时,在跨领域任务中效果较差。本文通过将传统的单步学习过程分解为两个级联学习步骤,提出了级联分解 Chain-of-Thoughts 教师 - 学生学习(CasCoD)方法,通过去除预设答案并将问题与基本原理连接为输入,确保学生模型着重学习推理原理而不受干扰,从而提高推理泛化能力。广泛实验证明 CasCoD 在领域内和跨领域基准推理数据集上的有效性。
May, 2024
我们引入了一种新颖的框架,LM-Guided CoT,它利用轻量级(即 <1B)语言模型(LM)指导黑盒大型(即> 10B)LM 在推理任务中的工作。具体而言,轻量级 LM 首先为每个输入实例生成理论依据,接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效,只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型,其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明,我们的方法在回答预测准确性方面优于所有基准方法。我们还发现,强化学习有助于模型生成更高质量的理论依据,并提高问答的性能。
Apr, 2024
在大型语言模型中,通过分析模型预测的变化,研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响,但随着模型规模的增大,模型对大多数任务的推理越来越不可信,因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。
Jul, 2023
通过对比性理由蒸馏,我们提出了一种质量引导的方法用于推理能力学习,能够从大型语言模型中提取正面和负面的知识理由,并通过在线更新的判别器优化训练过程,得到更高质量的可解释性底层语言模型。
May, 2024
使用基于错误的驱动关键推理步骤蒸馏(EDIT)方法,可以更有效地帮助小型语言模型学习重要的推理步骤,而不仅仅是简单的微调,验证了其在基准推理数据集上的有效性。
May, 2024