SCOTT: 自洽思维串讲压缩

ACLMay, 2023

SCOTT: Self-Consistent Chain-of-Thought Distillation

Peifeng Wang, Zhengyang Wang, Zheng Li, Yifan Gao, Bing Yin...

TL;DR提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought（CoT）模型，它使用教师模型生成的合理解释来学习学生模型，并使用对抗性约束来保证学生模型保持一致性和反事实推理，实验结果表明，这种方法可以更好地生成有利于提高性能的 CoT 解释。

Abstract

large language models (LMs) beyond a certain scale, demonstrate the emergent capability of generating free-text rationales for their predictions via →

large language models chain-of-thought knowledge distillation rationales counterfactual reasoning

发现论文，激发创造

研究 CoT 增强蒸馏之谜

链式思维 (Chain of Thought) 的理由序列已被证明能在问题回答等任务中有效提高语言模型的性能。最近的研究表明，这种理由序列在模型蒸馏中也能起到作用。通过将这些序列（由大型 “教师” 模型生成）与目标标签一同用于微调小型 “学生” 模型，能显著提高性能。本研究旨在探讨为何以及如何这种额外的训练信号能在模型蒸馏中发挥作用，并报道了一些有趣的结果。

Jun, 2024

Sci-CoT：利用大型语言模型增强科学问答中小模型的知识蒸馏

本文旨在通过知识蒸馏的方式将大型语言模型的推理能力传递给较小模型，提出了一种名为 Sci-CoT 的两阶段框架，该框架通过分离生成推理步骤和推理答案的过程，在科学问答任务中利用推理步骤更有效地进行推理，使得 8000 万参数的模型在 ARC-Easy 数据集的少样本情况下超过了 BLOOM-176B 的性能。

Aug, 2023

对话链条思路精炼：注重常识的对话代理

提出了一种知识蒸馏框架，利用大型语言模型作为不可靠的教师，并通过对齐过滤器选择性地提炼一致和有帮助的合理性，以实现对话语境中的多跳推理。进一步提出了 DOCTOR，一种可靠的 DialOgue Chain-of-ThOught Reasoner，为响应生成提供可靠的逻辑基础，通过广泛的实验表明，使用 DOCTOR 提供的高质量合理性显著提高了对话代理的响应质量。

Oct, 2023

符号链式思考精华提炼：小型模型也能逐步 “思考

本文介绍了一种名为 Symbolic Chain-of-Thought Distillation (SCoTD) 的方法，在巨大的语言模型的注释和参数的指导下，训练参数远低于 50B 的较小模型，在几种常识基准测试中证明了在有监督和少样本学习环境下可以提高性能。

Jun, 2023

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

通过级联分解的 CoTs 蒸馏提升学生的推理泛化能力

大语言模型通过教师 - 学生学习实现对较小模型的推理增强，但传统方法在领域内推理表现优秀的同时，在跨领域任务中效果较差。本文通过将传统的单步学习过程分解为两个级联学习步骤，提出了级联分解 Chain-of-Thoughts 教师 - 学生学习（CasCoD）方法，通过去除预设答案并将问题与基本原理连接为输入，确保学生模型着重学习推理原理而不受干扰，从而提高推理泛化能力。广泛实验证明 CasCoD 在领域内和跨领域基准推理数据集上的有效性。

May, 2024

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM 引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即 <1B）语言模型（LM）指导黑盒大型（即> 10B）LM 在推理任务中的工作。具体而言，轻量级 LM 首先为每个输入实例生成理论依据，接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024

链条思维推理中的忠实性测量

在大型语言模型中，通过分析模型预测的变化，研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响，但随着模型规模的增大，模型对大多数任务的推理越来越不可信，因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。

Jul, 2023

QCRD：基于质量引导的对比理由蒸馏用于大型语言模型

通过对比性理由蒸馏，我们提出了一种质量引导的方法用于推理能力学习，能够从大型语言模型中提取正面和负面的知识理由，并通过在线更新的判别器优化训练过程，得到更高质量的可解释性底层语言模型。

May, 2024

超越模仿：从推理涤纶中学习关键推理步骤的双重思维链

使用基于错误的驱动关键推理步骤蒸馏（EDIT）方法，可以更有效地帮助小型语言模型学习重要的推理步骤，而不仅仅是简单的微调，验证了其在基准推理数据集上的有效性。

May, 2024